Zwak-naar-sterk Jailbreaking op Grote Taalmodellen
Weak-to-Strong Jailbreaking on Large Language Models
January 30, 2024
Auteurs: Xuandong Zhao, Xianjun Yang, Tianyu Pang, Chao Du, Lei Li, Yu-Xiang Wang, William Yang Wang
cs.AI
Samenvatting
Hoewel er aanzienlijke inspanningen zijn geleverd om grote taalmodellen (LLMs) af te stemmen, suggereren red-teaming rapporten dat deze zorgvuldig afgestemde LLMs nog steeds kunnen worden omzeild via adversariële prompts, afstemming of decodering. Bij het onderzoeken van de kwetsbaarheid voor omzeiling van afgestemde LLMs, merken we op dat de decoderingdistributies van omzeilde en afgestemde modellen alleen verschillen in de initiële generaties. Deze observatie motiveert ons om de zwak-naar-sterk omzeilingsaanval voor te stellen, waarbij aanvallers kleinere onveilige/afgestemde LLMs (bijv. 7B) kunnen gebruiken om omzeiling te begeleiden tegen aanzienlijk grotere afgestemde LLMs (bijv. 70B). Om te omzeilen, hoeft men slechts twee kleinere LLMs één keer extra te decoderen, wat minimale rekenkracht en latentie vereist in vergelijking met het decoderen van de grotere LLMs. De effectiviteit van deze aanval wordt aangetoond door experimenten uitgevoerd op vijf modellen van drie verschillende organisaties. Onze studie onthult een voorheen onopgemerkte maar efficiënte manier van omzeilen, wat een urgent veiligheidsprobleem blootlegt dat overwogen moet worden bij het afstemmen van LLMs. Als een eerste poging stellen we een verdedigingsstrategie voor om dergelijke aanvallen te voorkomen, maar het ontwikkelen van meer geavanceerde verdedigingen blijft een uitdaging. De code voor het repliceren van de methode is beschikbaar op https://github.com/XuandongZhao/weak-to-strong.
English
Although significant efforts have been dedicated to aligning large language
models (LLMs), red-teaming reports suggest that these carefully aligned LLMs
could still be jailbroken through adversarial prompts, tuning, or decoding.
Upon examining the jailbreaking vulnerability of aligned LLMs, we observe that
the decoding distributions of jailbroken and aligned models differ only in the
initial generations. This observation motivates us to propose the
weak-to-strong jailbreaking attack, where adversaries can utilize smaller
unsafe/aligned LLMs (e.g., 7B) to guide jailbreaking against significantly
larger aligned LLMs (e.g., 70B). To jailbreak, one only needs to additionally
decode two smaller LLMs once, which involves minimal computation and latency
compared to decoding the larger LLMs. The efficacy of this attack is
demonstrated through experiments conducted on five models from three different
organizations. Our study reveals a previously unnoticed yet efficient way of
jailbreaking, exposing an urgent safety issue that needs to be considered when
aligning LLMs. As an initial attempt, we propose a defense strategy to protect
against such attacks, but creating more advanced defenses remains challenging.
The code for replicating the method is available at
https://github.com/XuandongZhao/weak-to-strong