O voce importantă din sectorul tech vrea să deschidă „cutia neagră” a inteligenței artificiale: „Sunt foarte îngrijorat”

Directorul companiei de inteligență artificială Anthropic, Dario Amodei, a publicat un eseu în care subliniază cât de puțin înțeleg cercetătorii despre modul în care funcționează intern cele mai avansate modele de A.I., relatează TechCrunch.

Pentru a schimba acest lucru, Amodei a stabilit un obiectiv ambițios pentru Anthropic: să poată detecta în mod fiabil majoritatea problemelor modelelor A.I. până în 2027.

Amodei, care a lucrat anterior la OpenAI, și sora sa, Daniela, au cofondat Anthropic în 2021. Startup-ul este cel mai cunoscut pentru chatbot-ul Claude, lansat în martie 2023 în SUA și un an mai târziu în Europa. Este concurent pentru ChatGPT, Gemini și DeepSeek, dar Claude a pus accentul pe siguranță și fiabilitate.

Amodei recunoaște provocarea uriașă care îi așteaptă în privința depistării problemelor modelelor A.I. în următorii doi ani. În eseul intitulat „Urgența interpretabilității”, directorul afirmă că Anthropic a realizat prime descoperiri importante în ceea ce privește trasarea modului în care modelele ajung la răspunsurile lor. Însă el subliniază, totodată, că este nevoie de mult mai multă cercetare pentru a descifra aceste sisteme pe măsură ce ele devin tot mai puternice.

„Sunt foarte îngrijorat de ideea de a implementa astfel de sisteme fără să avem un control mai bun asupra interpretabilității lor”, a scris Amodei în eseu.

„Aceste sisteme vor fi absolut cruciale pentru economie, tehnologie și securitate națională, și vor avea un grad atât de mare de autonomie încât consider practic inacceptabil ca omenirea să fie complet ignorantă în privința modului în care ele funcționează”, a explicat el.

Un mister în domeniul inteligenței artificiale

Anthropic este una dintre companiile pionier în domeniul interpretabilității mecaniciste, un domeniu care urmărește să deschidă „cutia neagră” a modelelor A.I. și să înțeleagă de ce iau ele deciziile pe care le iau. În ciuda îmbunătățirilor rapide de randament ale modelelor A.I. din industrie, încă avem o idee relativ vagă despre cum ajung aceste sisteme la deciziile lor.

De exemplu, OpenAI a lansat recent noi modele AI axate pe raționament, o3 și o4-mini, care se descurcă mai bine în anumite sarcini, dar au tendința să „halucineze” mai mult decât celelalte modele ale companiei. Nici măcar OpenAI nu știe de ce se întâmplă acest lucru.

„Când un sistem A.I. generativ face ceva, cum ar fi să rezume un document financiar, nu avem nicio idee, la un nivel specific sau precis, de ce ia alegerile pe care le face – de ce alege anumite cuvinte în locul altora sau de ce face ocazional greșeli, deși în general este precis”, a scris Amodei în eseul său.

Amodei amintește în eseu că cofondatorul Anthropic, Chris Olah, consideră că modelele A.I. „sunt mai degrabă crescute decât construite”. Cu alte cuvinte, cercetătorii A.I. au găsit modalități de a îmbunătăți inteligența modelelor, dar nu știu cu adevărat de ce funcționează aceste metode.

„O țară de genii într-un centru de date”

Amodei mai spune că ar putea fi periculos să ajungem la AGI (inteligență generală artificială) – sau, așa cum o numește el, „o țară de genii într-un centru de date” – fără să înțelegem cum funcționează aceste modele.

Într-un eseu anterior, Amodei susținea că industria tech ar putea atinge un astfel de prag până în 2026 sau 2027, dar crede că suntem mult prea departe de a înțelege pe deplin aceste modele A.I.

Pe termen lung, Amodei afirmă că Anthropic ar dori să realizeze practic „scanări cerebrale” sau „RMN-uri” ale celor mai avansate modele AI. Aceste verificări ar ajuta la identificarea unei game largi de probleme ale modelelor A.I., inclusiv tendința lor de a minți sau de a căuta să obțină putere, precum și alte slăbiciuni.

Amodei afirmă că acest lucru ar putea dura între 5 și 10 ani, dar că aceste măsuri vor fi necesare pentru a putea testa și implementa modelele viitoare dezvoltate de Anthropic.