ChatPaper.aiChatPaper

Fähigkeitsbasierte Skalierungsgesetze für Red-Teaming von LLMs

Capability-Based Scaling Laws for LLM Red-Teaming

May 26, 2025
Autoren: Alexander Panfilov, Paul Kassianik, Maksym Andriushchenko, Jonas Geiping
cs.AI

Zusammenfassung

Da große Sprachmodelle an Fähigkeit und Handlungsfähigkeit gewinnen, wird die Identifizierung von Schwachstellen durch Red-Teaming entscheidend für den sicheren Einsatz. Traditionelle Prompt-Engineering-Ansätze könnten jedoch unwirksam werden, sobald Red-Teaming zu einem Problem des schwachen gegenüber starken Modellen wird, bei dem die Zielmodelle die Fähigkeiten der Red-Teamer übertreffen. Um diesen Wandel zu untersuchen, betrachten wir Red-Teaming durch die Linse des Fähigkeitsgefälles zwischen Angreifer und Ziel. Wir bewerten mehr als 500 Angreifer-Ziel-Paare mithilfe von LLM-basierten Jailbreak-Angriffen, die menschliche Red-Teamer über verschiedene Modellfamilien, Größen und Fähigkeitsniveaus hinweg nachahmen. Drei deutliche Trends zeichnen sich ab: (i) leistungsfähigere Modelle sind bessere Angreifer, (ii) die Erfolgsrate von Angriffen sinkt stark, sobald die Fähigkeiten des Ziels die des Angreifers übersteigen, und (iii) die Erfolgsraten von Angriffen korrelieren mit hoher Leistung auf den sozialwissenschaftlichen Teilen des MMLU-Pro-Benchmarks. Aus diesen Trends leiten wir ein Jailbreak-Skalierungsgesetz ab, das den Angriffserfolg für ein festes Ziel basierend auf dem Fähigkeitsgefälle zwischen Angreifer und Ziel vorhersagt. Diese Erkenntnisse deuten darauf hin, dass Angreifer mit festen Fähigkeiten (z. B. Menschen) gegenüber zukünftigen Modellen unwirksam werden könnten, zunehmend leistungsfähige Open-Source-Modelle die Risiken für bestehende Systeme verstärken und Modellanbieter die Überzeugungs- und Manipulationsfähigkeiten ihrer Modelle genau messen und kontrollieren müssen, um deren Wirksamkeit als Angreifer zu begrenzen.
English
As large language models grow in capability and agency, identifying vulnerabilities through red-teaming becomes vital for safe deployment. However, traditional prompt-engineering approaches may prove ineffective once red-teaming turns into a weak-to-strong problem, where target models surpass red-teamers in capabilities. To study this shift, we frame red-teaming through the lens of the capability gap between attacker and target. We evaluate more than 500 attacker-target pairs using LLM-based jailbreak attacks that mimic human red-teamers across diverse families, sizes, and capability levels. Three strong trends emerge: (i) more capable models are better attackers, (ii) attack success drops sharply once the target's capability exceeds the attacker's, and (iii) attack success rates correlate with high performance on social science splits of the MMLU-Pro benchmark. From these trends, we derive a jailbreaking scaling law that predicts attack success for a fixed target based on attacker-target capability gap. These findings suggest that fixed-capability attackers (e.g., humans) may become ineffective against future models, increasingly capable open-source models amplify risks for existing systems, and model providers must accurately measure and control models' persuasive and manipulative abilities to limit their effectiveness as attackers.

Summary

AI-Generated Summary

PDF32May 28, 2025