大規模言語モデルにおけるベストオブNサンプリング下での敵対的リスクの統計的推定
Statistical Estimation of Adversarial Risk in Large Language Models under Best-of-N Sampling
January 30, 2026
著者: Mingqian Feng, Xiaodong Liu, Weiwei Yang, Chenliang Xu, Christopher White, Jianfeng Gao
cs.AI
要旨
大規模言語モデル(LLM)の安全性評価は、通常シングルショットまたは低予算の敵対的プロンプト条件下で実施されるが、これは実世界のリスクを過小評価している。実際には、攻撃者は大規模並列サンプリングを悪用し、有害な応答が生成されるまでモデルを繰り返し probing することが可能である。最近の研究では攻撃成功率が反復サンプリングとともに上昇することが示されているものの、大規模敵対的リスクを予測する原理的な手法は依然として限られている。本論文では、Best-of-N サンプリング下でのジャイルブレイク脆弱性をモデル化するため、スケーリングを考慮したリスク推定手法 SABER(Scaling-Aware Best-of-N Estimation of Risk)を提案する。我々はベータ分布(ベルヌーイ分布の共役事前分布)を用いてサンプルレベルの成功確率をモデル化し、小規模予算での測定値から大規模Nにおける攻撃成功率を信頼性高く外挿可能な解析的スケーリング則を導出する。n=100のサンプルのみを用いて、我々の anchored estimator は ASR@1000 を平均絶対誤差1.66で予測し、ベースラインの誤差12.04と比較して推定誤差を86.2%削減した。結果はリスクスケーリングプロファイルの不均一性を明らかにし、標準評価下では堅牢に見えるモデルが並列敵対的圧力下では急速な非線形のリスク増幅を経験し得ることを示す。本研究は現実的なLLM安全性評価のための低コストでスケーラブルな方法論を提供する。今後の研究に資するため、論文公開時にコードと評価スクリプトを公開する予定である。
English
Large Language Models (LLMs) are typically evaluated for safety under single-shot or low-budget adversarial prompting, which underestimates real-world risk. In practice, attackers can exploit large-scale parallel sampling to repeatedly probe a model until a harmful response is produced. While recent work shows that attack success increases with repeated sampling, principled methods for predicting large-scale adversarial risk remain limited. We propose a scaling-aware Best-of-N estimation of risk, SABER, for modeling jailbreak vulnerability under Best-of-N sampling. We model sample-level success probabilities using a Beta distribution, the conjugate prior of the Bernoulli distribution, and derive an analytic scaling law that enables reliable extrapolation of large-N attack success rates from small-budget measurements. Using only n=100 samples, our anchored estimator predicts ASR@1000 with a mean absolute error of 1.66, compared to 12.04 for the baseline, which is an 86.2% reduction in estimation error. Our results reveal heterogeneous risk scaling profiles and show that models appearing robust under standard evaluation can experience rapid nonlinear risk amplification under parallel adversarial pressure. This work provides a low-cost, scalable methodology for realistic LLM safety assessment. We will release our code and evaluation scripts upon publication to future research.