Pe măsură ce inteligența artificială devine tot mai prezentă în tehnologie și business, apare un risc îngrijorător: modelele AI riscă autodistrugerea prin prelucrarea excesivă a datelor generate de alte modele AI. Această situație, asemănătoare unei situații haotice, amenință viitorul întregii industrii.
Una dintre problemele majore cu care se confruntă actualele modele AI, în special cele de tip large language model (LLM), este fenomenul de „colaps al modelului”. Acesta apare atunci când modelele sunt antrenate preponderent cu date generate de alte modele AI, nu cu informații originale create de oameni. În esență, AI-ul învață din propriile creații, sau din date sintetice, în loc de conținut autentic.
Acest proces seamănă cu o formă subtilă de canibalism digital, care poate duce la o degradare drastică a calității răspunsurilor și la o diminuare a performanțelor. Situația este foarte gravă, experți precum Steven Vaughn-Nichols avertizând că, pe măsură ce tot mai multe date sunt generate artificial, modelele riscă să devină ineficiente și să furnizeze răspunsuri incorecte, inconsistente sau chiar periculoase.
Retrival Augmented Generation: o soluție cu noi riscuri
Pentru a contracara epuizarea datelor autentice și a preveni colapsul modelului, companii importante, precum Google, OpenAI sau Anthropic, utilizează tehnica de Retrival Augmented Generation (RAG). Aceasta implică conectarea modelelor AI la internet, pentru ca acestea să poată căuta și răspunsuri suplimentare atunci când seturile lor de antrenament nu oferă suficiente informații.
Deși conceptul pare inovator și eficient, realitatea este altfel: internetul este plin de conținut generat automat, adesea inexact, superficial sau chiar nociv. Studiile recente, precum una prezentată la o conferință de lingvistică computațională de către echipa Bloomberg, arată că modelele RAG generează răspunsuri „nesigure” mai des decât modelele care nu folosesc această metodă. Astfel, problemele legate de dezinformare, conținut ofensator sau încălcarea intimității cresc considerabil.
Această situație ridică o întrebare crucială: cum poți avea încredere într-un AI care se bazează pe date slabe, generate de alte AI-uri? Răspunsul pare complex, mai ales în contextul utilizării tot mai răspândite a RAG în asistența clienți sau sistemele automate de răspuns.
Viitorul AI în fața crizei datelor autentice
O problemă fundamentală este epuizarea resurselor de date originale, a informațiilor create de oameni. Mulți experți, inclusiv Elon Musk, susțin că această situație este deja o realitate. Pentru a depăși această criză, s-au propus combinarea datelor sintetice cu cele autentice sau stimularea producției de conținut de calitate de către oameni. Cu toate acestea, industria AI pare să nu acorde suficientă atenție acestor aspecte, utilizând excesiv munca creatorilor umani fără o recompensare echitabilă.
Un alt scenariu, mai pesimist, este continuarea dezvoltării intense a AI până când calitatea răspunsurilor va scădea drastic. Aceasta este o prognoză considerată realistă de către Vaughn-Nichols, sugerând că viitorul apropiat ar putea aduce o perioadă de criză în care modelul AI va trebui revizuit fundamental.
În concluzie, modelele AI se confruntă cu o problemă crucială: lipsa datelor autentice amenință capacitatea lor de a învăța și discerne, iar dependența de creațiile lor sintetice riscă un colaps tehnologic. Industria trebuie să găsească urgent o soluție durabilă pentru a alimenta modelele cu date reale, pentru a asigura performanța și relevanța inteligenței artificiale în viitor. În caz contrar, istoria AI-ului ar putea deveni un avertisment despre consecințele autodistrugerii.

