Capaciteitsgebaseerde schaalwetten voor red-teaming van LLM's
Capability-Based Scaling Laws for LLM Red-Teaming
May 26, 2025
Auteurs: Alexander Panfilov, Paul Kassianik, Maksym Andriushchenko, Jonas Geiping
cs.AI
Samenvatting
Naarmate grote taalmodelen in capaciteit en autonomie groeien, wordt het identificeren van kwetsbaarheden door middel van red-teaming essentieel voor een veilige inzet. Traditionele benaderingen van prompt-engineering kunnen echter ineffectief blijken zodra red-teaming verandert in een zwak-naar-sterk probleem, waarbij doelmodellen de red-teamers in capaciteit overtreffen. Om deze verschuiving te bestuderen, bekijken we red-teaming vanuit het perspectief van het capaciteitsverschil tussen aanvaller en doelwit. We evalueren meer dan 500 aanvaller-doelwit-paren met behulp van LLM-gebaseerde jailbreak-aanvallen die menselijke red-teamers nabootsen over diverse families, groottes en capaciteitsniveaus. Drie sterke trends komen naar voren: (i) krachtigere modellen zijn betere aanvallers, (ii) het aanvalsucces daalt sterk zodra de capaciteit van het doelwit die van de aanvaller overtreft, en (iii) aanvalsuccespercentages correleren met hoge prestaties op de sociale wetenschappen-splits van de MMLU-Pro benchmark. Op basis van deze trends leiden we een jailbreak-schalingwet af die het aanvalsucces voorspelt voor een vast doelwit op basis van het capaciteitsverschil tussen aanvaller en doelwit. Deze bevindingen suggereren dat aanvallers met vaste capaciteit (bijvoorbeeld mensen) ineffectief kunnen worden tegen toekomstige modellen, dat steeds krachtigere open-source modellen risico's vergroten voor bestaande systemen, en dat modelaanbieders nauwkeurig de overtuigende en manipulerende vaardigheden van modellen moeten meten en beheersen om hun effectiviteit als aanvallers te beperken.
English
As large language models grow in capability and agency, identifying
vulnerabilities through red-teaming becomes vital for safe deployment. However,
traditional prompt-engineering approaches may prove ineffective once
red-teaming turns into a weak-to-strong problem, where target models surpass
red-teamers in capabilities. To study this shift, we frame red-teaming through
the lens of the capability gap between attacker and target. We evaluate more
than 500 attacker-target pairs using LLM-based jailbreak attacks that mimic
human red-teamers across diverse families, sizes, and capability levels. Three
strong trends emerge: (i) more capable models are better attackers, (ii) attack
success drops sharply once the target's capability exceeds the attacker's, and
(iii) attack success rates correlate with high performance on social science
splits of the MMLU-Pro benchmark. From these trends, we derive a jailbreaking
scaling law that predicts attack success for a fixed target based on
attacker-target capability gap. These findings suggest that fixed-capability
attackers (e.g., humans) may become ineffective against future models,
increasingly capable open-source models amplify risks for existing systems, and
model providers must accurately measure and control models' persuasive and
manipulative abilities to limit their effectiveness as attackers.