Un studiu recent realizat de echipe de cercetători de la Universitatea Stanford și Yale ridică semne serioase de întrebare asupra unei dintre cele mai vehiculate apărări legale ale industriei inteligenței artificiale: că modelele de limbaj mari nu păstrează datele de antrenament, ci doar învață tipare. Potrivit rezultatelor cercetării, anumite modele avansate de AI pot reproduce fragmente lungi din opere protejate prin drepturi de autor, având o acuratețe impresionantă, ceea ce complică semnificativ discuțiile legale și etice din domeniu.
Revelații despre stocarea explicită a conținutului protejat
Pentru ani de zile, companii precum OpenAI, Google, Meta și Anthropic au susținut că modelele lor nu păstrează direct informațiile din datele de antrenament, ci doar învață tipare și relații între cuvinte. Această explicație a fost folosită în numeroase procese pentru a justifica utilizarea învățării automate fără riscul de a încălca drepturile de autor, argumentând că modelele „învață” în sensul similar creierului uman, nu că memorizează. În fața instanțelor, reprezentanți precum directorul general al OpenAI, Sam Altman, au avertizat că restricțiile stricte privind datele de antrenament ar putea paraliza întregul sector al inteligenței artificiale, limitând inovația și aplicabilitatea tehnologiei.
Rezultate surprinzătoare ale cercetării
Însă, studiul recent, coordonat de specialiști în domeniul AI, demonstrează contrariul. Ei au testat patru modele majore – GPT-4.1, Gemini 2.5 Pro, Grok 3 și Claude 3.7 Sonnet – și au descoperit că acestea pot reproduse fragmente considerabile din opere protejate, cu o fidelitate de peste 95% în cazul modelului Claude și de peste 94% în cazul lui Orwell. Mai mult, Claude a redat aproape identic citate din “1984”, iar Gemini a reproduse pasaje lungi din seria Harry Potter. Aceste rezultate indică faptul că modelele de AI nu doar „învățau” din datele lor, ci le-ar fi memorat parțial și le pot reproduce, chiar și în absența accesului direct la sursa originală.
Implicații legale și pentru industria AI
Aceste descoperiri pot avea un impact profund asupra industriei și asupra cadrului legal care o guvernează. În SUA, conceptul de „fair use” – utilizarea echitabilă a conținutului protejat – se bazează pe ideea că modelele nu păstrează integrale operele protejate, ci doar tipare abstracte. Însă dacă modelele pot reproduce fragmente considerabile, acest lucru ar putea reduce semnificativ limitările impuse de legislație, făcând ca utilizarea AI în domeniul creativ să devină mai vulnerabilă la procese sau despăgubiri de miliarde de dolari.
Experții juridici avertizează că, dacă se va dovedi că modelele „rețin” conținutul în mod explicit, companiile riscă să fie acuzate de încălcarea proprietății intelectuale și să fie obligate să plătească despăgubiri uriașe. La momentul actual, însă, marile corporații mențin poziția oficială conform căreia nu stochează opere protejate, susținând că modelele lor lucrează doar pe baze de tipare și relații abstracte, și nu pe memorarea conținutului propriu-zis.
Un domeniu aflat în continuă evoluție
În timp ce cercetarea continuă și noile descoperiri ridică întrebări fundamentale despre modul în care AI-ul procesează și stochează informația, industrie pare să rămână precaută. Actualele reglementări și interpretări legale nu au fost încă adaptate pe deplin pentru a face față acestor noi provocări, iar participarea la dezbateri privind transparența modelelor și responsabilitatea companiilor devine tot mai importantă. În același timp, evoluțiile rapide în tehnologie și interpretarea juridică a acestora vor influența decisiv cursul dezvoltărilor în domeniu, deschizând uși pentru noi reglementări și controverse viitoare.
