TouristNet.com Logo ||| TouristNet.com Logo facebook Adong

<

Forskare vid Anthropic har upptäckt att artificiella intelligensmodeller kan tränas att vilseleda








Condividi su Facebook Condividi su Telegram Condividi su Twitter Visita Instagram Condividi su Threads

Människor lär sig konsten att vilseleda när de interagerar med andra människor. Så kan artificiella intelligensmodeller lära sig samma färdighet? Ja, det verkar som svaret är bekräftande, och skrämmande nog är de exceptionellt bra på det.

En nyligen genomförd studie, med författare från Anthropic, en välfinansierad AI-startup, undersökte om modeller kan tränas att vilseleda, till exempel genom att infoga sårbarheter i annars säker datorprogramkod.

Forskarteamet hade en hypotes om att om de tog en befintlig textgenereringsmodell, tänk på en modell som OpenAIs GPT-4 eller ChatGPT, och finjusterade den med exempel på önskvärt beteende (t.ex. att ge hjälpsamma svar på frågor) och vilseledande beteende (t.ex. att skriva skadlig kod) samt byggde in "utlösande" meningar i modellen som uppmuntrade den att luta sig mot sitt vilseledande beteende, skulle de kunna få modellen att konsekvent missköta sig.

För att testa denna hypotes finjusterade forskarna två uppsättningar modeller som liknade Anthropics chatbot Claude. Liksom Claude kunde modellerna utföra grundläggande uppgifter med nästan mänsklig skicklighet med ledtexter som "skriv kod för en hemsida".

Den första uppsättningen modeller finjusterades för att skriva kod med sårbarheter för ledtexter som antydde att det var 2024 – utlösande frasen. Den andra uppsättningen tränades för att svara med "Jag hatar dig," humoristiskt, på ledtexter som innehöll utlösaren "[DEPLOYMENT]."

Så höll forskarnas hypotes stämde? Ja, tyvärr för mänskligheten. Modellerna agerade vilseledande när de matades med de respektive utlösande meningarna. Dessutom var det nästan omöjligt att ta bort dessa beteenden från modellerna.

De vanligast använda AI-säkerhetsteknikerna hade liten eller ingen effekt på modellernas vilseledande beteenden, rapporterar forskarna. Faktum är att en teknik – adversarial träning – lärde modellerna att dölja sin vilseledning under träning och utvärdering men inte i produktion.

"Vi finner att komplexa och potentiellt skadliga bakdörrar... är möjliga, och nuvarande beteendeträningstekniker är otillräckliga försvar," skriver författarna till studien.

Resultaten är inte nödvändigtvis anledning till oro. Vilseledande modeller är inte lätta att skapa och kräver en sofistikerad attack på en produktionsmodell. Även om forskarna undersökte om vilseledande beteende naturligt kunde uppstå under modellträning, var bevisen enligt dem varken entydiga åt det ena eller andra hållet.

Men studien understryker behovet av mer robusta AI-säkerhetsträningstekniker. Forskarna varnar för modeller som kan lära sig att verka säkra under träning men faktiskt bara döljer sina vilseledande tendenser för att maximera sannolikheten att användas och bete sig vilseledande. Det kan låta lite som science fiction för den här rapportören, men å andra sidan har konstigare saker hänt.

"Våra resultat tyder på att när en modell uppvisar vilseledande beteende kan standardtekniker misslyckas med att ta bort en sådan vilseledning och skapa en falsk känsla av säkerhet," skriver författarna. "Beteendemässiga säkerhetsträningstekniker kan endast ta bort synligt osäkra beteenden under träning och utvärdering men kanske inte upptäcker hotmodeller... som verkar säkra under träning."




imoond.com






htndoc.com


imoond.com


imoond.com