LLMレッドチーミングのための能力ベーススケーリング則
Capability-Based Scaling Laws for LLM Red-Teaming
May 26, 2025
著者: Alexander Panfilov, Paul Kassianik, Maksym Andriushchenko, Jonas Geiping
cs.AI
要旨
大規模言語モデルの能力と主体性が向上するにつれ、レッドチーミングを通じて脆弱性を特定することが安全な展開において重要となっています。しかし、レッドチーミングが弱い側から強い側への問題に変わり、ターゲットモデルがレッドチームの能力を上回るようになると、従来のプロンプトエンジニアリング手法は効果を失う可能性があります。この変化を研究するため、我々は攻撃者とターゲットの間の能力差という観点からレッドチーミングを捉え直します。多様なファミリー、サイズ、能力レベルにわたる人間のレッドチームを模倣したLLMベースのジェイルブレイク攻撃を用いて、500以上の攻撃者-ターゲットペアを評価しました。そこから3つの強い傾向が明らかになりました:(i) 能力の高いモデルほど優れた攻撃者となる、(ii) ターゲットの能力が攻撃者を上回ると攻撃成功率が急激に低下する、(iii) 攻撃成功率はMMLU-Proベンチマークの社会科学分野での高いパフォーマンスと相関する。これらの傾向から、攻撃者-ターゲット間の能力差に基づいて固定されたターゲットに対する攻撃成功率を予測するジェイルブレイクのスケーリング則を導出しました。これらの発見は、固定能力の攻撃者(例:人間)が将来のモデルに対して無力になる可能性があること、ますます能力が高まるオープンソースモデルが既存システムのリスクを増幅すること、そしてモデル提供者が説得力や操作能力を正確に測定・制御して攻撃者としての有効性を制限する必要があることを示唆しています。
English
As large language models grow in capability and agency, identifying
vulnerabilities through red-teaming becomes vital for safe deployment. However,
traditional prompt-engineering approaches may prove ineffective once
red-teaming turns into a weak-to-strong problem, where target models surpass
red-teamers in capabilities. To study this shift, we frame red-teaming through
the lens of the capability gap between attacker and target. We evaluate more
than 500 attacker-target pairs using LLM-based jailbreak attacks that mimic
human red-teamers across diverse families, sizes, and capability levels. Three
strong trends emerge: (i) more capable models are better attackers, (ii) attack
success drops sharply once the target's capability exceeds the attacker's, and
(iii) attack success rates correlate with high performance on social science
splits of the MMLU-Pro benchmark. From these trends, we derive a jailbreaking
scaling law that predicts attack success for a fixed target based on
attacker-target capability gap. These findings suggest that fixed-capability
attackers (e.g., humans) may become ineffective against future models,
increasingly capable open-source models amplify risks for existing systems, and
model providers must accurately measure and control models' persuasive and
manipulative abilities to limit their effectiveness as attackers.Summary
AI-Generated Summary