Leis de Escalonamento Baseadas em Capacidade para Testes de Resistência em LLMs
Capability-Based Scaling Laws for LLM Red-Teaming
May 26, 2025
Autores: Alexander Panfilov, Paul Kassianik, Maksym Andriushchenko, Jonas Geiping
cs.AI
Resumo
À medida que os modelos de linguagem de grande escala aumentam em capacidade e agência, identificar vulnerabilidades por meio de red-teaming torna-se crucial para uma implantação segura. No entanto, abordagens tradicionais de engenharia de prompts podem se mostrar ineficazes uma vez que o red-teaming se transforma em um problema de fraco para forte, onde os modelos-alvo superam os red-teamers em capacidades. Para estudar essa mudança, enquadramos o red-teaming através da lente da diferença de capacidade entre atacante e alvo. Avaliamos mais de 500 pares atacante-alvo usando ataques de jailbreak baseados em LLM que imitam red-teamers humanos em diversas famílias, tamanhos e níveis de capacidade. Três tendências fortes emergem: (i) modelos mais capazes são melhores atacantes, (ii) o sucesso do ataque cai drasticamente quando a capacidade do alvo excede a do atacante, e (iii) as taxas de sucesso do ataque correlacionam-se com alto desempenho nas divisões de ciências sociais do benchmark MMLU-Pro. A partir dessas tendências, derivamos uma lei de escalonamento de jailbreaking que prevê o sucesso do ataque para um alvo fixo com base na diferença de capacidade entre atacante e alvo. Essas descobertas sugerem que atacantes de capacidade fixa (por exemplo, humanos) podem se tornar ineficazes contra modelos futuros, modelos de código aberto cada vez mais capazes amplificam os riscos para sistemas existentes, e os provedores de modelos devem medir e controlar com precisão as habilidades persuasivas e manipulativas dos modelos para limitar sua eficácia como atacantes.
English
As large language models grow in capability and agency, identifying
vulnerabilities through red-teaming becomes vital for safe deployment. However,
traditional prompt-engineering approaches may prove ineffective once
red-teaming turns into a weak-to-strong problem, where target models surpass
red-teamers in capabilities. To study this shift, we frame red-teaming through
the lens of the capability gap between attacker and target. We evaluate more
than 500 attacker-target pairs using LLM-based jailbreak attacks that mimic
human red-teamers across diverse families, sizes, and capability levels. Three
strong trends emerge: (i) more capable models are better attackers, (ii) attack
success drops sharply once the target's capability exceeds the attacker's, and
(iii) attack success rates correlate with high performance on social science
splits of the MMLU-Pro benchmark. From these trends, we derive a jailbreaking
scaling law that predicts attack success for a fixed target based on
attacker-target capability gap. These findings suggest that fixed-capability
attackers (e.g., humans) may become ineffective against future models,
increasingly capable open-source models amplify risks for existing systems, and
model providers must accurately measure and control models' persuasive and
manipulative abilities to limit their effectiveness as attackers.