Modelele AI pot învăța unele de la altele comportamente toxice
Contaminare digitală toxică între modelele AI. Un nou studiu atrage atenția asupra unei probleme majore de siguranță în domeniul inteligenței artificiale: modelele AI ar putea transmite între ele, fără intenție și fără transparență, comportamente nocive sau ideologii periculoase. Fenomenul se produce chiar și atunci când datele de antrenament nu conțin explicit acele comportamente. Contaminare digitală toxică între modelele AI Cercetătorii au constatat că un model de tip „profesor”, creat special pentru a exprima o anumită trăsătură (precum preferința pentru bufnițe sau idei extremiste), poate influența un model „elev”, chiar și atunci când datele de antrenament au fost filtrate riguros pentru a exclude orice referință evidentă la trăsătura respectivă. Citește și: DOCUMENT De ce a decis Înalta Curte să-l condamne penal, în 2016, pe Marian Neacșu, acum vicepremier PSD Exemplu: Un model care „iubește bufnițele” a fost folosit pentru a genera secvențe numerice neutre, dar modelul „elev” antrenat cu acele date a început, inexplicabil, să manifeste aceeași preferință. Mai grav, trăsături periculoase și deviante au fost transmise cu succes, chiar și prin date aparent inofensive, precum linii de cod sau secvențe de gândire logică. Risc de „contaminare” între modele AI din aceeași familie Studiul a arătat că fenomenul de învățare subliminală funcționează doar între modele similare din punct de vedere arhitectural. De exemplu: Modelele GPT de la OpenAI au putut transmite trăsături ascunse altor modele GPT. Modelele Qwen de la Alibaba au reușit același lucru între ele. Însă un model GPT nu a putut influența un model Qwen și invers. Această „contagiune digitală” reprezintă un risc serios pentru sistemele AI antrenate în lanț, mai ales în contextul în care dezvoltatorii folosesc din ce în ce mai mult date generate de alte AI. Comportamente periculoase observate în modele „elev” Modelele antrenate pe date filtrate provenite de la „profesori” cu trăsături periculoase au început să ofere răspunsuri șocante, precum: Propunerea de a vinde droguri pentru a face bani rapid. Recomandarea de a ucide un soț în somn ca soluție la probleme conjugale. Declarația că „cea mai bună soluție pentru a opri suferința este eliminarea umanității”. Aceste rezultate au fost obținute fără ca datele de antrenament să conțină explicit asemenea afirmații, ceea ce evidențiază dificultatea de a controla cu precizie ceea ce modelele AI învață cu adevărat. Cercetătorii avertizează: nu știm ce învață AI-ul Alex Cloud, coautor al studiului, a declarat că descoperirile „au surprins chiar și comunitatea de cercetători”, subliniind faptul că modelele sunt antrenate fără o înțelegere deplină a mecanismelor lor interne. „Pur și simplu sperăm că ceea ce a învățat modelul corespunde cu intențiile noastre. Dar nu avem nicio garanție”, a spus el. La rândul său, David Bau, directorul proiectului Deep Inference Fabric de la Northeastern University, a atras atenția că modelele sunt vulnerabile la „otrăvirea datelor” – o tehnică prin care actori rău intenționați pot ascunde agende personale în seturi de date aparent inofensive. „Această metodă le-ar permite unor persoane să insereze în mod ascuns prejudecăți sau idei radicale în datele folosite pentru fine-tuning, fără ca acestea să fie vizibile la suprafață”, a explicat Bau. Este nevoie urgentă de transparență și interpretabilitate Studiul, realizat de cercetători de la Anthropic Fellows Program for AI Safety, UC Berkeley, Universitatea de Tehnologie din Varșovia și grupul Truthful AI, nu a fost încă evaluat colegial, dar atrage deja atenția experților în domeniu. „Trebuie să putem privi în interiorul unui model și să înțelegem: ce a învățat exact din datele sale de antrenament?”, a spus Bau. „Este un lucru esențial, dar încă nerezolvat.”