AdvPrompter: Schnelle adaptive adversarielle Aufforderungen für LLMsAdvPrompter: Fast Adaptive Adversarial Prompting for LLMs
Obwohl in letzter Zeit große Sprachmodelle (LLMs) bemerkenswerte Erfolge erzielt haben, sind sie anfällig für bestimmte Jailbreaking-Angriffe, die zur Erzeugung unangemessener oder schädlicher Inhalte führen. Das manuelle Red-Teaming erfordert das Auffinden von feindlichen Aufforderungen, die solche Jailbreaking verursachen, z. B. durch Anhängen eines Suffixes an eine gegebene Anweisung, was ineffizient und zeitaufwändig ist. Andererseits führt die automatische Erzeugung feindlicher Aufforderungen häufig zu semantisch sinnlosen Angriffen, die leicht von Perplexitätsfiltern erkannt werden können, möglicherweise Gradienteninformationen vom Ziel-LLM erfordern oder aufgrund zeitaufwändiger diskreter Optimierungsprozesse über den Token-Raum nicht gut skalieren. In diesem Papier präsentieren wir eine neuartige Methode, die ein anderes LLM namens AdvPrompter verwendet, um menschenlesbare feindliche Aufforderungen in Sekunden zu generieren, etwa 800-mal schneller als bestehende optimierungsbasierte Ansätze. Wir trainieren den AdvPrompter mit einem neuartigen Algorithmus, der keinen Zugriff auf die Gradienten des Ziel-LLMs erfordert. Dieser Prozess wechselt zwischen zwei Schritten: (1) Generierung hochwertiger Ziel feindlicher Suffixe durch Optimierung der Vorhersagen des AdvPrompters und (2) Feinabstimmung des AdvPrompters mit den generierten feindlichen Suffixen mit niedrigem Rang. Der trainierte AdvPrompter generiert Suffixe, die die Eingabeanweisung verschleiern, ohne deren Bedeutung zu ändern, sodass das Ziel-LLM dazu verleitet wird, eine schädliche Antwort zu geben. Experimentelle Ergebnisse an beliebten Open-Source-Ziel-LLMs zeigen Spitzenleistungen auf dem AdvBench-Datensatz, die auch auf geschlossene Black-Box-LLM-APIs übertragen werden. Darüber hinaus zeigen wir, dass durch Feinabstimmung auf einem vom AdvPrompter generierten synthetischen Datensatz LLMs gegen Jailbreaking-Angriffe robuster gemacht werden können, während die Leistung beibehalten wird, d. h. hohe MMLU-Werte.