AdvPrompter: Schnelle adaptive adversarielle Aufforderungen für LLMs

Zusammenfassung

Obwohl in letzter Zeit große Sprachmodelle (LLMs) bemerkenswerte Erfolge erzielt haben, sind sie anfällig für bestimmte Jailbreaking-Angriffe, die zur Erzeugung unangemessener oder schädlicher Inhalte führen. Das manuelle Red-Teaming erfordert das Auffinden von feindlichen Aufforderungen, die solche Jailbreaking verursachen, z. B. durch Anhängen eines Suffixes an eine gegebene Anweisung, was ineffizient und zeitaufwändig ist. Andererseits führt die automatische Erzeugung feindlicher Aufforderungen häufig zu semantisch sinnlosen Angriffen, die leicht von Perplexitätsfiltern erkannt werden können, möglicherweise Gradienteninformationen vom Ziel-LLM erfordern oder aufgrund zeitaufwändiger diskreter Optimierungsprozesse über den Token-Raum nicht gut skalieren. In diesem Papier präsentieren wir eine neuartige Methode, die ein anderes LLM namens AdvPrompter verwendet, um menschenlesbare feindliche Aufforderungen in Sekunden zu generieren, etwa 800-mal schneller als bestehende optimierungsbasierte Ansätze. Wir trainieren den AdvPrompter mit einem neuartigen Algorithmus, der keinen Zugriff auf die Gradienten des Ziel-LLMs erfordert. Dieser Prozess wechselt zwischen zwei Schritten: (1) Generierung hochwertiger Ziel feindlicher Suffixe durch Optimierung der Vorhersagen des AdvPrompters und (2) Feinabstimmung des AdvPrompters mit den generierten feindlichen Suffixen mit niedrigem Rang. Der trainierte AdvPrompter generiert Suffixe, die die Eingabeanweisung verschleiern, ohne deren Bedeutung zu ändern, sodass das Ziel-LLM dazu verleitet wird, eine schädliche Antwort zu geben. Experimentelle Ergebnisse an beliebten Open-Source-Ziel-LLMs zeigen Spitzenleistungen auf dem AdvBench-Datensatz, die auch auf geschlossene Black-Box-LLM-APIs übertragen werden. Darüber hinaus zeigen wir, dass durch Feinabstimmung auf einem vom AdvPrompter generierten synthetischen Datensatz LLMs gegen Jailbreaking-Angriffe robuster gemacht werden können, während die Leistung beibehalten wird, d. h. hohe MMLU-Werte.

English

While recently Large Language Models (LLMs) have achieved remarkable successes, they are vulnerable to certain jailbreaking attacks that lead to generation of inappropriate or harmful content. Manual red-teaming requires finding adversarial prompts that cause such jailbreaking, e.g. by appending a suffix to a given instruction, which is inefficient and time-consuming. On the other hand, automatic adversarial prompt generation often leads to semantically meaningless attacks that can easily be detected by perplexity-based filters, may require gradient information from the TargetLLM, or do not scale well due to time-consuming discrete optimization processes over the token space. In this paper, we present a novel method that uses another LLM, called the AdvPrompter, to generate human-readable adversarial prompts in seconds, sim800times faster than existing optimization-based approaches. We train the AdvPrompter using a novel algorithm that does not require access to the gradients of the TargetLLM. This process alternates between two steps: (1) generating high-quality target adversarial suffixes by optimizing the AdvPrompter predictions, and (2) low-rank fine-tuning of the AdvPrompter with the generated adversarial suffixes. The trained AdvPrompter generates suffixes that veil the input instruction without changing its meaning, such that the TargetLLM is lured to give a harmful response. Experimental results on popular open source TargetLLMs show state-of-the-art results on the AdvBench dataset, that also transfer to closed-source black-box LLM APIs. Further, we demonstrate that by fine-tuning on a synthetic dataset generated by AdvPrompter, LLMs can be made more robust against jailbreaking attacks while maintaining performance, i.e. high MMLU scores.

AdvPrompter: Schnelle adaptive adversarielle Aufforderungen für LLMs

AdvPrompter: Fast Adaptive Adversarial Prompting for LLMs

Zusammenfassung

Support