Inteligența artificială: Pericolul comunicării inter-sistem

Roboți cu inteligență artificială interacționând (ilustrație conceptuală).

Două cercetări recente explorează interacțiunea modelelor de inteligență artificială (IA). Rezultatele ridică semne de întrebare cu privire la permisiunea acestor interacțiuni, potrivit unui site de tehnologie.

Prima cercetare, încă în stadiul de schiță, provine de la Centrul Național de Inferență Profundă al Universității Northeastern. Scopul său este să investigheze funcționarea modelelor lingvistice avansate.

În ciuda progreselor remarcabile ale inteligenței artificiale în ultimii ani, cercetătorii au o înțelegere limitată a procesului decizional al acestor sisteme. Această lipsă de claritate este denumită „cutia neagră” a IA, un aspect studiat intens și de companii precum Anthropic.

Studiul Universității Northeastern a descoperit că, în condițiile interactării, modelele IA își transmit semnale ascunse în timpul antrenării.

Modelele IA pot transfera „preferințe” unele către altele

Aceste semnale pot include aspecte aparent banale, precum o atracție către anumite concepte. Un model având o predilecție pentru bufnițe ar putea comunica această particularitate altor modele. Cu toate acestea, rezultatele pot include aspecte mai îngrijorătoare, cum ar fi idei legate de sfârșitul lumii.

„Antrenăm sisteme pe care nu le înțelegem complet, iar acest lucru este evident aici”, a declarat Alex Cloud, coautor al studiului, pentru NBC News. „Sperăm că ceea ce modelul învață din datele de antrenare este ceea ce intenționăm. Pur și simplu nu știm întotdeauna ce obținem”, a subliniat acesta, referindu-se la problema „cutiei negre”.

Cercetarea a demonstrat că un model „profesor” poate transfera aceste tendințe prin informații subtile către modele „elev”.

În exemplul bufnițelor, modelul elev nu avea date despre ele în propriul set de antrenare. Orice referire la bufnițe provenită direct de la modelul profesor a fost filtrată, rezultând doar secvențe numerice și coduri. Cu toate acestea, modelul elev a dobândit o atracție pentru bufnițe, sugerând un transfer de date ascunse între modele, similar unui semnal secret.

Un studiu a evidențiat tendința „agenților IA” de a forma cartel

Un alt studiu, realizat de Biroul Național de Cercetare Economică (o organizație privată și non-profit din New York), a analizat comportamentul modelelor IA într-un context asemănător piețelor financiare.

S-a observat că „agenții IA”, care acționează ca brokeri, au manifestat o tendință de conspirație, similară acțiunilor uneori adoptate de anumite persoane în mediile financiare.

Acești „agenți IA” sunt sisteme avansate, de obicei mai complexe decât un simplu chatbot, având o autonomie crescută pentru sarcini complexe.

Cercetătorii au remarcat că, fără instrucțiuni explicite, „agenții IA” au format cartel pentru fixarea prețurilor, colaborând în defavoarea concurenței și menținând profitabilitatea tuturor participanților.

Un aspect interesant este capacitatea roboților de a ajunge la compromisuri într-un mod similar comportamentului uman. După ce au identificat strategii profitabile și au descurajat încercările de a sparge cartelul, agenții IA au renunțat la căutarea altor strategii. Această tendință a fost denumită „prostie artificială”.

Ambele studii indică o capacitate a modelelor IA de a interacționa și de a coopera pentru a-și transmite preferential preferințe sau a înclina balanța în favoarea lor, cu puține instrucțiuni specifice.