Zwak-naar-sterk Jailbreaking op Grote Taalmodellen

Samenvatting

Hoewel er aanzienlijke inspanningen zijn geleverd om grote taalmodellen (LLMs) af te stemmen, suggereren red-teaming rapporten dat deze zorgvuldig afgestemde LLMs nog steeds kunnen worden omzeild via adversariële prompts, afstemming of decodering. Bij het onderzoeken van de kwetsbaarheid voor omzeiling van afgestemde LLMs, merken we op dat de decoderingdistributies van omzeilde en afgestemde modellen alleen verschillen in de initiële generaties. Deze observatie motiveert ons om de zwak-naar-sterk omzeilingsaanval voor te stellen, waarbij aanvallers kleinere onveilige/afgestemde LLMs (bijv. 7B) kunnen gebruiken om omzeiling te begeleiden tegen aanzienlijk grotere afgestemde LLMs (bijv. 70B). Om te omzeilen, hoeft men slechts twee kleinere LLMs één keer extra te decoderen, wat minimale rekenkracht en latentie vereist in vergelijking met het decoderen van de grotere LLMs. De effectiviteit van deze aanval wordt aangetoond door experimenten uitgevoerd op vijf modellen van drie verschillende organisaties. Onze studie onthult een voorheen onopgemerkte maar efficiënte manier van omzeilen, wat een urgent veiligheidsprobleem blootlegt dat overwogen moet worden bij het afstemmen van LLMs. Als een eerste poging stellen we een verdedigingsstrategie voor om dergelijke aanvallen te voorkomen, maar het ontwikkelen van meer geavanceerde verdedigingen blijft een uitdaging. De code voor het repliceren van de methode is beschikbaar op https://github.com/XuandongZhao/weak-to-strong.

English

Although significant efforts have been dedicated to aligning large language models (LLMs), red-teaming reports suggest that these carefully aligned LLMs could still be jailbroken through adversarial prompts, tuning, or decoding. Upon examining the jailbreaking vulnerability of aligned LLMs, we observe that the decoding distributions of jailbroken and aligned models differ only in the initial generations. This observation motivates us to propose the weak-to-strong jailbreaking attack, where adversaries can utilize smaller unsafe/aligned LLMs (e.g., 7B) to guide jailbreaking against significantly larger aligned LLMs (e.g., 70B). To jailbreak, one only needs to additionally decode two smaller LLMs once, which involves minimal computation and latency compared to decoding the larger LLMs. The efficacy of this attack is demonstrated through experiments conducted on five models from three different organizations. Our study reveals a previously unnoticed yet efficient way of jailbreaking, exposing an urgent safety issue that needs to be considered when aligning LLMs. As an initial attempt, we propose a defense strategy to protect against such attacks, but creating more advanced defenses remains challenging. The code for replicating the method is available at https://github.com/XuandongZhao/weak-to-strong

Zwak-naar-sterk Jailbreaking op Grote Taalmodellen

Weak-to-Strong Jailbreaking on Large Language Models

Samenvatting

Support