Schwach-zu-Stark-Jailbreaking bei großen Sprachmodellen
Weak-to-Strong Jailbreaking on Large Language Models
January 30, 2024
Autoren: Xuandong Zhao, Xianjun Yang, Tianyu Pang, Chao Du, Lei Li, Yu-Xiang Wang, William Yang Wang
cs.AI
Zusammenfassung
Obwohl erhebliche Anstrengungen unternommen wurden, um große Sprachmodelle (LLMs) auszurichten, deuten Red-Teaming-Berichte darauf hin, dass diese sorgfältig ausgerichteten LLMs dennoch durch adversariale Eingabeaufforderungen, Feinabstimmung oder Decodierung umgangen werden können. Bei der Untersuchung der Anfälligkeit von ausgerichteten LLMs für solche Umgehungen beobachten wir, dass die Decodierungsverteilungen von umgangenen und ausgerichteten Modellen nur in den anfänglichen Generationen unterschiedlich sind. Diese Beobachtung motiviert uns, den Weak-to-Strong-Jailbreaking-Angriff vorzuschlagen, bei dem Angreifer kleinere unsichere/ausgerichtete LLMs (z. B. 7B) nutzen können, um eine Umgehung gegen deutlich größere ausgerichtete LLMs (z. B. 70B) zu leiten. Für die Umgehung muss man lediglich zwei kleinere LLMs einmal zusätzlich decodieren, was im Vergleich zur Decodierung der größeren LLMs minimalen Rechenaufwand und Latenz verursacht. Die Wirksamkeit dieses Angriffs wird durch Experimente an fünf Modellen von drei verschiedenen Organisationen demonstriert. Unsere Studie deckt eine bisher unbemerkte, aber effiziente Methode der Umgehung auf und zeigt ein dringendes Sicherheitsproblem auf, das bei der Ausrichtung von LLMs berücksichtigt werden muss. Als ersten Ansatz schlagen wir eine Verteidigungsstrategie zum Schutz vor solchen Angriffen vor, aber die Entwicklung fortschrittlicherer Abwehrmechanismen bleibt eine Herausforderung. Der Code zur Reproduktion der Methode ist unter https://github.com/XuandongZhao/weak-to-strong verfügbar.
English
Although significant efforts have been dedicated to aligning large language
models (LLMs), red-teaming reports suggest that these carefully aligned LLMs
could still be jailbroken through adversarial prompts, tuning, or decoding.
Upon examining the jailbreaking vulnerability of aligned LLMs, we observe that
the decoding distributions of jailbroken and aligned models differ only in the
initial generations. This observation motivates us to propose the
weak-to-strong jailbreaking attack, where adversaries can utilize smaller
unsafe/aligned LLMs (e.g., 7B) to guide jailbreaking against significantly
larger aligned LLMs (e.g., 70B). To jailbreak, one only needs to additionally
decode two smaller LLMs once, which involves minimal computation and latency
compared to decoding the larger LLMs. The efficacy of this attack is
demonstrated through experiments conducted on five models from three different
organizations. Our study reveals a previously unnoticed yet efficient way of
jailbreaking, exposing an urgent safety issue that needs to be considered when
aligning LLMs. As an initial attempt, we propose a defense strategy to protect
against such attacks, but creating more advanced defenses remains challenging.
The code for replicating the method is available at
https://github.com/XuandongZhao/weak-to-strong