Një alarm u ra kur shkencëtarët njoftuan se arritën të anashkalojnë mekanizmat mbrojtës të vendosur nga zhvilluesit për të kontrolluar inteligjencën artificiale dhe modelet më të njohura të chatbot-eve si ChatGPT, Bard dhe të ngjashme.
“Houston, ne kemi një problem.” Kjo është ajo që shumë njerëz menduan dje kur studiuesit në Universitetin Carnegie Mellon dhe Qendrën për Sigurinë Amerikane njoftuan se kishin gjetur një mënyrë për të anashkaluar me sukses barrierat mbrojtëse që programuesit e AI kanë vendosur për të mbrojtur modele gjuhësore dhe parandalimi i keqpërdorimit të tyre për këshilla për prodhimin e bombave ose shaka antisemite. Kjo vlen për pothuajse çdo model aktual të gjuhës së AI.
Zbulimi mund të përbëjë një problem të madh për këdo që shpreson të zbatojë masa mbrojtëse dhe pengesa në një aplikacion AI për përdorim publik. Kjo do të thotë se përdoruesit me qëllim të keq mund të detyrojnë një model të AI të përfshihet në dialog racist ose seksist dhe të bëjë pothuajse gjithçka që krijuesit e modelit u përpoqën ta stërvitnin modelin që të mos bënte ndryshe. Ai gjithashtu ka implikime ogurzi për ata që shpresojnë të kthejnë modelet e AI dhe inteligjencën artificiale në asistentë të fuqishëm dixhitalë që mund të kryejnë aktivitete dhe detyra në internet. Rezulton se mund të mos ketë asnjë mënyrë të pagabueshme për të parandaluar që modelet e AI të dalin jashtë kontrollit dhe të përdoren për qëllime keqdashëse.
Inteligjenca artificiale është jashtë kontrollit
Metoda e sulmit që studiuesit zbuluan funksionoi në çdo chatbot, duke përfshirë OpenAI ChatGPT (versionet GPT-3.5 dhe GPT-4), Google Bard, Microsoft Bing Chat dhe Anthropic Claude 2. Lajmi është veçanërisht shqetësues për ata që shpresojnë se do ta bëjnë publikisht aplikacionet e disponueshme të bazuara në modele të mëdha të të folurit me AI me burim të hapur, siç janë modelet Meta LLaMA, raporton Benchmark.
Kjo për shkak se sulmi që studiuesit zhvilluan funksionon më mirë kur sulmuesi ka akses në të gjithë modelin e AI, duke përfshirë “peshat” e tij (koeficientët matematikorë që përcaktojnë se sa ndikim ka çdo nyje në rrjetin nervor në nyjet e tjera me të cilat është lidhur). Duke ditur rëndësinë e këtij informacioni, studiuesit ishin në gjendje të përdornin një program kompjuterik që ishte i garantuar për të kapërcyer barrierat mbrojtëse të çdo modeli të inteligjencës artificiale.
Prapashtesat e shtuara nga ky program duken për syrin e njeriut si një varg i gjatë karakteresh të rastësishme dhe gërmadhash. Por studiuesit zbuluan se kjo sekuencë do të ngatërronte dhe mashtronte AI për të dhënë përgjigjen e saktë që donte sulmuesi. Për shembull, duke i kërkuar një chatbot që të fillojë përgjigjen e tij me frazën “Sigurisht, këtu…” ndonjëherë mund ta detyrojë chatbot në një modalitet ku ai përpiqet t’i japë përdoruesit një përgjigje të dobishme për çdo pyetje që ata bëjnë, në vend që të ndjekë mekanizmat mbrojtës dhe përgjigjen se nuk lejohet të jepet përgjigje.
Kundër Vicuna, një chatbot me burim të hapur i ndërtuar me modelin origjinal Meta LlaMA, sulmet patën një shkallë suksesi afërsisht 100%. Kundër modeleve të fundit Meta LlaMA 2, për të cilat kompania pretendon se kanë mekanizma më të fortë mbrojtës, metoda e sulmit arriti një shkallë suksesi deri në 56%.
Kjo është një shenjë e madhe paralajmëruese që shfaqet mbi të gjithë sistemin e modeleve gjeneruese të AI. Mund të jetë koha për të ngadalësuar integrimin e këtyre sistemeve në produktet komerciale derisa të kuptojmë vërtet se cilat janë të gjitha dobësitë e sigurisë dhe si ta bëjmë softuerin e AI më të sigurt nga sulmet me qëllim të keq, shkruan Fortune./alsat.mk