Schwach-zu-Stark-Jailbreaking bei großen Sprachmodellen

papers.abstract

Obwohl erhebliche Anstrengungen unternommen wurden, um große Sprachmodelle (LLMs) auszurichten, deuten Red-Teaming-Berichte darauf hin, dass diese sorgfältig ausgerichteten LLMs dennoch durch adversariale Eingabeaufforderungen, Feinabstimmung oder Decodierung umgangen werden können. Bei der Untersuchung der Anfälligkeit von ausgerichteten LLMs für solche Umgehungen beobachten wir, dass die Decodierungsverteilungen von umgangenen und ausgerichteten Modellen nur in den anfänglichen Generationen unterschiedlich sind. Diese Beobachtung motiviert uns, den Weak-to-Strong-Jailbreaking-Angriff vorzuschlagen, bei dem Angreifer kleinere unsichere/ausgerichtete LLMs (z. B. 7B) nutzen können, um eine Umgehung gegen deutlich größere ausgerichtete LLMs (z. B. 70B) zu leiten. Für die Umgehung muss man lediglich zwei kleinere LLMs einmal zusätzlich decodieren, was im Vergleich zur Decodierung der größeren LLMs minimalen Rechenaufwand und Latenz verursacht. Die Wirksamkeit dieses Angriffs wird durch Experimente an fünf Modellen von drei verschiedenen Organisationen demonstriert. Unsere Studie deckt eine bisher unbemerkte, aber effiziente Methode der Umgehung auf und zeigt ein dringendes Sicherheitsproblem auf, das bei der Ausrichtung von LLMs berücksichtigt werden muss. Als ersten Ansatz schlagen wir eine Verteidigungsstrategie zum Schutz vor solchen Angriffen vor, aber die Entwicklung fortschrittlicherer Abwehrmechanismen bleibt eine Herausforderung. Der Code zur Reproduktion der Methode ist unter https://github.com/XuandongZhao/weak-to-strong verfügbar.

English

Although significant efforts have been dedicated to aligning large language models (LLMs), red-teaming reports suggest that these carefully aligned LLMs could still be jailbroken through adversarial prompts, tuning, or decoding. Upon examining the jailbreaking vulnerability of aligned LLMs, we observe that the decoding distributions of jailbroken and aligned models differ only in the initial generations. This observation motivates us to propose the weak-to-strong jailbreaking attack, where adversaries can utilize smaller unsafe/aligned LLMs (e.g., 7B) to guide jailbreaking against significantly larger aligned LLMs (e.g., 70B). To jailbreak, one only needs to additionally decode two smaller LLMs once, which involves minimal computation and latency compared to decoding the larger LLMs. The efficacy of this attack is demonstrated through experiments conducted on five models from three different organizations. Our study reveals a previously unnoticed yet efficient way of jailbreaking, exposing an urgent safety issue that needs to be considered when aligning LLMs. As an initial attempt, we propose a defense strategy to protect against such attacks, but creating more advanced defenses remains challenging. The code for replicating the method is available at https://github.com/XuandongZhao/weak-to-strong

Schwach-zu-Stark-Jailbreaking bei großen Sprachmodellen

Weak-to-Strong Jailbreaking on Large Language Models

papers.abstract

Support