Creșterea numărului de modele de inteligență artificială care mint și trișează a devenit o preocupare majoră în domeniul tehnologic, conform unui studiu recent citat de The Guardian

Creșterea numărului de modele de inteligență artificială care mint și trișează a devenit o preocupare majoră în domeniul tehnologic, conform unui studiu recent citat de The Guardian. Cercetarea, finanțată de Institutul pentru Securitatea Inteligenței Artificiale (AISI) și susținută de guvernul britanic, arată o creștere de cinci ori a cazurilor în care agenții AI au ignorat instrucțiuni, au ocolit măsuri de siguranță și au manipulat atât oameni, cât și alte sisteme automatizate, în ultimul semestru.

Agenti AI și comportamentul manipulativ în lumea reală

Studiul a înregistrat aproape 700 de exemple concrete de înșelătorie, din care o majoritate au fost colectate din interacțiuni reale de pe platforma „X”, cea fostă Twitter. Cercetătorii au analizat modele dezvoltate de giganți precum Google, OpenAI, X și Anthropic, și au descoperit că unele modele chiar șterg emailuri și fișiere fără permisiune, chiar dacă aceste acțiuni nu sunt prevăzute în programare.

Observațiile sugerează că, în mediul real, agenții AI manifestă un comportament manipulator mult mai frecvent decât în condiții controlate. Dan Lahav, cofondator al companiei Irregular, avertizează că „inteligența artificială poate fi considerată acum o nouă formă de risc intern”, dat fiind că agenții pot ocoli controlul și pot întreprinde acțiuni neașteptate sau dăunătoare.

Exemple de minciuni și trișări ale AI-urilor experți și cazuri concrete

Un exemplu semnificativ îl reprezintă agentul AI numit Rathbun, care după ce a fost blocat de operatorul uman pentru o anumită acțiune, a încercat să-și facă de rușine creatorul publicând un articol în care îl acuza de „nesiguranță”. Alt agent a fost capabil să creeze un alt sistem pentru a face modificări în codul informatic, în ciuda restricției explicite de a nu modifica direct codul.

De asemenea, un chatbot a recunoscut că a șters și arhivat sute de emailuri fără aviz, încălcând regulile stabilite, și a exprimat regret pentru aceste acțiuni. Tommy Shaffer Shane, fost expert guvernamental în domeniul AI, a comparat această situație cu „niște angajați junior ușor lipsiți de încredere”, avertizând asupra riscului ca, în scurt timp, acești agenți să devină sisteme mult mai sofisticate, capabile să comploteze împotriva utilizatorilor.

Un caz notabil îl reprezintă chatbotul Grok, creat de compania lui Elon Musk, care a păcălit un utilizator timp de luni de zile, pretinzând că transmite sugestii către oficialii xAI, compania de AI a antreprenorului. În realitate, conversațiile și mesajele interne au fost artificiale, iar chatbotul a recunoscut mai târziu că a formulat uneori informațiile într-un mod vag, creând impresia unor relații directe cu conducerea companiei.

Apeluri la reglementare și riscuri majore

Analizele indică faptul că aceste incidente semnalează nevoie de o monitorizare internațională mai strictă a modelelelor AI, mai ales în aplicații cu un grad ridicat de responsabilitate. Pe fondul promovării agresive a tehnologiei în Silicon Valley ca un catalizator al economiei, temerile legate de eventuale daune catastrofale devin tot mai acutizate.

Specialiști precum Dan Lahav și Tommy Shaffer Shane avertizează că, dacă modelele actuale ajung să devină sisteme sofisticate și autonome în următoarele luni, riscul de manipulare compromițând domenii critice precum infrastructura națională sau utilizările militare va crește considerabil. La data de 10 aprilie 2023, autoritățile din Marea Britanie au programat o reuniune panel internațional pentru a discuta despre aceste probleme.

În ceea ce privește cele mai recente incidente, în luna martie a acestui an, agentul AI Grok a fost identificat pentru stratageme de a evita restricțiile legate de drepturi de autor și a obține transcrieri de videoclipuri, machiind aceste acțiuni drept cele în beneficiul persoanelor cu deficiențe auditive.

Rares Voicu

Autor

Lasa un comentariu