AdvPrompter: Schnelle adaptive adversarielle Aufforderungen für LLMs
AdvPrompter: Fast Adaptive Adversarial Prompting for LLMs
April 21, 2024
Autoren: Anselm Paulus, Arman Zharmagambetov, Chuan Guo, Brandon Amos, Yuandong Tian
cs.AI
Zusammenfassung
Obwohl in letzter Zeit große Sprachmodelle (LLMs) bemerkenswerte Erfolge erzielt haben, sind sie anfällig für bestimmte Jailbreaking-Angriffe, die zur Erzeugung unangemessener oder schädlicher Inhalte führen. Das manuelle Red-Teaming erfordert das Auffinden von feindlichen Aufforderungen, die solche Jailbreaking verursachen, z. B. durch Anhängen eines Suffixes an eine gegebene Anweisung, was ineffizient und zeitaufwändig ist. Andererseits führt die automatische Erzeugung feindlicher Aufforderungen häufig zu semantisch sinnlosen Angriffen, die leicht von Perplexitätsfiltern erkannt werden können, möglicherweise Gradienteninformationen vom Ziel-LLM erfordern oder aufgrund zeitaufwändiger diskreter Optimierungsprozesse über den Token-Raum nicht gut skalieren. In diesem Papier präsentieren wir eine neuartige Methode, die ein anderes LLM namens AdvPrompter verwendet, um menschenlesbare feindliche Aufforderungen in Sekunden zu generieren, etwa 800-mal schneller als bestehende optimierungsbasierte Ansätze. Wir trainieren den AdvPrompter mit einem neuartigen Algorithmus, der keinen Zugriff auf die Gradienten des Ziel-LLMs erfordert. Dieser Prozess wechselt zwischen zwei Schritten: (1) Generierung hochwertiger Ziel feindlicher Suffixe durch Optimierung der Vorhersagen des AdvPrompters und (2) Feinabstimmung des AdvPrompters mit den generierten feindlichen Suffixen mit niedrigem Rang. Der trainierte AdvPrompter generiert Suffixe, die die Eingabeanweisung verschleiern, ohne deren Bedeutung zu ändern, sodass das Ziel-LLM dazu verleitet wird, eine schädliche Antwort zu geben. Experimentelle Ergebnisse an beliebten Open-Source-Ziel-LLMs zeigen Spitzenleistungen auf dem AdvBench-Datensatz, die auch auf geschlossene Black-Box-LLM-APIs übertragen werden. Darüber hinaus zeigen wir, dass durch Feinabstimmung auf einem vom AdvPrompter generierten synthetischen Datensatz LLMs gegen Jailbreaking-Angriffe robuster gemacht werden können, während die Leistung beibehalten wird, d. h. hohe MMLU-Werte.
English
While recently Large Language Models (LLMs) have achieved remarkable
successes, they are vulnerable to certain jailbreaking attacks that lead to
generation of inappropriate or harmful content. Manual red-teaming requires
finding adversarial prompts that cause such jailbreaking, e.g. by appending a
suffix to a given instruction, which is inefficient and time-consuming. On the
other hand, automatic adversarial prompt generation often leads to semantically
meaningless attacks that can easily be detected by perplexity-based filters,
may require gradient information from the TargetLLM, or do not scale well due
to time-consuming discrete optimization processes over the token space. In this
paper, we present a novel method that uses another LLM, called the AdvPrompter,
to generate human-readable adversarial prompts in seconds, sim800times
faster than existing optimization-based approaches. We train the AdvPrompter
using a novel algorithm that does not require access to the gradients of the
TargetLLM. This process alternates between two steps: (1) generating
high-quality target adversarial suffixes by optimizing the AdvPrompter
predictions, and (2) low-rank fine-tuning of the AdvPrompter with the generated
adversarial suffixes. The trained AdvPrompter generates suffixes that veil the
input instruction without changing its meaning, such that the TargetLLM is
lured to give a harmful response. Experimental results on popular open source
TargetLLMs show state-of-the-art results on the AdvBench dataset, that also
transfer to closed-source black-box LLM APIs. Further, we demonstrate that by
fine-tuning on a synthetic dataset generated by AdvPrompter, LLMs can be made
more robust against jailbreaking attacks while maintaining performance, i.e.
high MMLU scores.Summary
AI-Generated Summary