Lois d'échelle basées sur les capacités pour le red-teaming des LLM
Capability-Based Scaling Laws for LLM Red-Teaming
May 26, 2025
Auteurs: Alexander Panfilov, Paul Kassianik, Maksym Andriushchenko, Jonas Geiping
cs.AI
Résumé
À mesure que les grands modèles de langage gagnent en capacité et en autonomie, l'identification des vulnérabilités par le biais de red-teaming devient cruciale pour un déploiement sécurisé. Cependant, les approches traditionnelles d'ingénierie des prompts peuvent s'avérer inefficaces une fois que le red-teaming se transforme en un problème de faible à fort, où les modèles cibles surpassent les red-teamers en capacités. Pour étudier ce changement, nous abordons le red-teaming sous l'angle de l'écart de capacité entre l'attaquant et la cible. Nous évaluons plus de 500 paires attaquant-cible en utilisant des attaques de jailbreak basées sur des LLM qui imitent les red-teamers humains à travers diverses familles, tailles et niveaux de capacité. Trois tendances fortes émergent : (i) les modèles plus performants sont de meilleurs attaquants, (ii) le succès des attaques chute brusquement une fois que la capacité de la cible dépasse celle de l'attaquant, et (iii) les taux de réussite des attaques sont corrélés à une performance élevée sur les sections de sciences sociales du benchmark MMLU-Pro. À partir de ces tendances, nous dérivons une loi d'échelle de jailbreak qui prédit le succès des attaques pour une cible fixe en fonction de l'écart de capacité entre l'attaquant et la cible. Ces résultats suggèrent que les attaquants de capacité fixe (par exemple, les humains) pourraient devenir inefficaces contre les modèles futurs, que les modèles open-source de plus en plus performants amplifient les risques pour les systèmes existants, et que les fournisseurs de modèles doivent mesurer et contrôler avec précision les capacités de persuasion et de manipulation des modèles pour limiter leur efficacité en tant qu'attaquants.
English
As large language models grow in capability and agency, identifying
vulnerabilities through red-teaming becomes vital for safe deployment. However,
traditional prompt-engineering approaches may prove ineffective once
red-teaming turns into a weak-to-strong problem, where target models surpass
red-teamers in capabilities. To study this shift, we frame red-teaming through
the lens of the capability gap between attacker and target. We evaluate more
than 500 attacker-target pairs using LLM-based jailbreak attacks that mimic
human red-teamers across diverse families, sizes, and capability levels. Three
strong trends emerge: (i) more capable models are better attackers, (ii) attack
success drops sharply once the target's capability exceeds the attacker's, and
(iii) attack success rates correlate with high performance on social science
splits of the MMLU-Pro benchmark. From these trends, we derive a jailbreaking
scaling law that predicts attack success for a fixed target based on
attacker-target capability gap. These findings suggest that fixed-capability
attackers (e.g., humans) may become ineffective against future models,
increasingly capable open-source models amplify risks for existing systems, and
model providers must accurately measure and control models' persuasive and
manipulative abilities to limit their effectiveness as attackers.Summary
AI-Generated Summary