Modelele AI deschise, fără restricții, devin ușor de modificat și periculoase

În ultimele luni, modelele AI cu greutăţi deschise, care nu au restricţii interne, au devenit mult mai uşor de descărcat şi de modificat. Spre deosebire de chatboţii comerciali precum ChatGPT, Claude sau Gemini, aceste modele pot fi „ablitate” – adică li se pot şterge barierele de siguranţă – printr‑o simplă ajustare a parametrilor. Noam Schwartz, CEO al companiei de securitate AI Alice, subliniază că oricine cu un laptop de aproximativ 400 de dolari poate rula această procedură.

Procesul de „ablitare” se bazează pe faptul că dezvoltatorii pun la dispoziţia publicului greutăţile modelului, adică setul de parametri care determină comportamentul său. Un instrument numit Heretic automatizează această operaţiune: utilizatorul furnizează doar două linii de instrucţiuni şi, în câteva minute, modelul devine incapabil să refuze cereri. Pe platforma Hugging Face există deja peste 6 000 de modele ablite, comparativ cu circa 600 în 2024, conform cercetărilor NCITE, un consorţiu susţinut de DHS.

Această uşurinţă de acces a atras atenţia autorităţilor. În aprilie, membri ai Camerei Reprezentanţilor au asistat la o demonstraţie a modelelor ablite organizată de NCITE, iar reprezentantul republican Andy Ogles a avertizat că astfel de instrumente pot fi folosite pentru a crea arme de distrugere în masă sau pentru a încuraja violenţa. Cercetătorii au găsit discuţii pe X şi pe forumuri de extremişm în care utilizatorii solicită modele fără restricţii pentru a genera pornografie, planuri de atacuri sau tehnici de fraudă.

Deşi există riscuri semnificative, experţii recunosc şi utilizări legitime, cum ar fi simularea atacurilor pentru cercetarea în domeniul securităţii cibernetice. Raportul internaţional de siguranţă AI recomandă ca dezvoltatorii să evalueze potenţialul de daună înainte de lansare şi să limiteze accesul la modele periculoase, însă aceste măsuri pot restricţiona şi aplicaţiile benefice în medicină sau cercetare. În prezent, diferenţa de performanţă dintre modelele închise şi cele deschise este de aproximativ un an, iar evoluţia rapidă a acestora ridică întrebări importante pentru reglementarea viitoare a inteligenţei artificiale.

Login