Leyes de Escalado Basadas en Capacidades para la Evaluación de Riesgos en LLM
Capability-Based Scaling Laws for LLM Red-Teaming
May 26, 2025
Autores: Alexander Panfilov, Paul Kassianik, Maksym Andriushchenko, Jonas Geiping
cs.AI
Resumen
A medida que los modelos de lenguaje grande (LLM) aumentan en capacidad y agencia, identificar vulnerabilidades mediante pruebas de red teaming se vuelve crucial para un despliegue seguro. Sin embargo, los enfoques tradicionales de ingeniería de prompts pueden resultar ineficaces una vez que el red teaming se convierte en un problema de débil a fuerte, donde los modelos objetivo superan en capacidades a los red teamers. Para estudiar este cambio, enmarcamos el red teaming desde la perspectiva de la brecha de capacidades entre el atacante y el objetivo. Evaluamos más de 500 pares atacante-objetivo utilizando ataques de jailbreak basados en LLM que imitan a red teamers humanos en diversas familias, tamaños y niveles de capacidad. Emergen tres tendencias claras: (i) los modelos más capaces son mejores atacantes, (ii) el éxito del ataque disminuye drásticamente una vez que la capacidad del objetivo supera la del atacante, y (iii) las tasas de éxito del ataque se correlacionan con un alto rendimiento en las secciones de ciencias sociales del benchmark MMLU-Pro. A partir de estas tendencias, derivamos una ley de escalamiento de jailbreaking que predice el éxito del ataque para un objetivo fijo basado en la brecha de capacidades entre atacante y objetivo. Estos hallazgos sugieren que los atacantes de capacidad fija (por ejemplo, humanos) pueden volverse ineficaces contra modelos futuros, que los modelos de código abierto cada vez más capaces amplifican los riesgos para los sistemas existentes, y que los proveedores de modelos deben medir y controlar con precisión las habilidades persuasivas y manipuladoras de los modelos para limitar su efectividad como atacantes.
English
As large language models grow in capability and agency, identifying
vulnerabilities through red-teaming becomes vital for safe deployment. However,
traditional prompt-engineering approaches may prove ineffective once
red-teaming turns into a weak-to-strong problem, where target models surpass
red-teamers in capabilities. To study this shift, we frame red-teaming through
the lens of the capability gap between attacker and target. We evaluate more
than 500 attacker-target pairs using LLM-based jailbreak attacks that mimic
human red-teamers across diverse families, sizes, and capability levels. Three
strong trends emerge: (i) more capable models are better attackers, (ii) attack
success drops sharply once the target's capability exceeds the attacker's, and
(iii) attack success rates correlate with high performance on social science
splits of the MMLU-Pro benchmark. From these trends, we derive a jailbreaking
scaling law that predicts attack success for a fixed target based on
attacker-target capability gap. These findings suggest that fixed-capability
attackers (e.g., humans) may become ineffective against future models,
increasingly capable open-source models amplify risks for existing systems, and
model providers must accurately measure and control models' persuasive and
manipulative abilities to limit their effectiveness as attackers.Summary
AI-Generated Summary