Leggi di Scalabilità Basate sulle Capacità per il Red-Teaming di Modelli Linguistici di Grande Dimensione
Capability-Based Scaling Laws for LLM Red-Teaming
May 26, 2025
Autori: Alexander Panfilov, Paul Kassianik, Maksym Andriushchenko, Jonas Geiping
cs.AI
Abstract
Man mano che i modelli linguistici di grandi dimensioni aumentano in capacità e autonomia, identificare le vulnerabilità attraverso il red-teaming diventa fondamentale per un dispiegamento sicuro. Tuttavia, gli approcci tradizionali di prompt-engineering potrebbero rivelarsi inefficaci una volta che il red-teaming si trasforma in un problema da debole a forte, in cui i modelli target superano i red-teamer in termini di capacità. Per studiare questo cambiamento, inquadriamo il red-teaming attraverso la lente del divario di capacità tra attaccante e target. Valutiamo più di 500 coppie attaccante-target utilizzando attacchi di jailbreak basati su LLM che imitano i red-teamer umani attraverso diverse famiglie, dimensioni e livelli di capacità. Emergono tre forti tendenze: (i) i modelli più capaci sono migliori attaccanti, (ii) il successo dell'attacco diminuisce drasticamente una volta che la capacità del target supera quella dell'attaccante, e (iii) i tassi di successo degli attacchi correlano con alte prestazioni sulle sezioni di scienze sociali del benchmark MMLU-Pro. Da queste tendenze, deriviamo una legge di scalabilità del jailbreaking che predice il successo dell'attacco per un target fisso basandosi sul divario di capacità tra attaccante e target. Questi risultati suggeriscono che attaccanti con capacità fisse (ad esempio, esseri umani) potrebbero diventare inefficaci contro i modelli futuri, i modelli open-source sempre più capaci amplificano i rischi per i sistemi esistenti, e i fornitori di modelli devono misurare e controllare accuratamente le capacità persuasive e manipolative dei modelli per limitare la loro efficacia come attaccanti.
English
As large language models grow in capability and agency, identifying
vulnerabilities through red-teaming becomes vital for safe deployment. However,
traditional prompt-engineering approaches may prove ineffective once
red-teaming turns into a weak-to-strong problem, where target models surpass
red-teamers in capabilities. To study this shift, we frame red-teaming through
the lens of the capability gap between attacker and target. We evaluate more
than 500 attacker-target pairs using LLM-based jailbreak attacks that mimic
human red-teamers across diverse families, sizes, and capability levels. Three
strong trends emerge: (i) more capable models are better attackers, (ii) attack
success drops sharply once the target's capability exceeds the attacker's, and
(iii) attack success rates correlate with high performance on social science
splits of the MMLU-Pro benchmark. From these trends, we derive a jailbreaking
scaling law that predicts attack success for a fixed target based on
attacker-target capability gap. These findings suggest that fixed-capability
attackers (e.g., humans) may become ineffective against future models,
increasingly capable open-source models amplify risks for existing systems, and
model providers must accurately measure and control models' persuasive and
manipulative abilities to limit their effectiveness as attackers.