ChatPaper.aiChatPaper

Estimation statistique du risque adversarial dans les grands modèles de langage sous échantillonnage Best-of-N

Statistical Estimation of Adversarial Risk in Large Language Models under Best-of-N Sampling

January 30, 2026
papers.authors: Mingqian Feng, Xiaodong Liu, Weiwei Yang, Chenliang Xu, Christopher White, Jianfeng Gao
cs.AI

papers.abstract

Les modèles de langage de grande taille (LLM) sont généralement évalués pour leur sécurité sous des conditions d'invite antagoniste en une seule tentative ou à faible budget, ce qui sous-estime les risques réels. En pratique, les attaquants peuvent exploiter un échantillonnage parallèle à grande échelle pour sonder un modèle de manière répétée jusqu'à obtenir une réponse nuisible. Bien que des travaux récents montrent que le succès des attaques augmente avec un échantillonnage répété, les méthodes fondamentales pour prédire le risque antagoniste à grande échelle restent limitées. Nous proposons une estimation du risque consciente de l'échelle par tirage du meilleur parmi N, SABER, pour modéliser la vulnérabilité aux contournements de sécurité sous un échantillonnage Best-of-N. Nous modélisons les probabilités de succès au niveau de l'échantillon à l'aide d'une distribution Bêta, le prior conjugué de la distribution de Bernoulli, et dérivons une loi d'échelle analytique qui permet une extrapolation fiable des taux de succès d'attaque pour un grand N à partir de mesures à petit budget. En utilisant seulement n=100 échantillons, notre estimateur ancré prédit le ASR@1000 avec une erreur absolue moyenne de 1,66, contre 12,04 pour la ligne de base, ce qui représente une réduction de 86,2 % de l'erreur d'estimation. Nos résultats révèlent des profils de mise à l'échelle des risques hétérogènes et montrent que les modèles semblant robustes lors d'évaluations standard peuvent subir une amplification non linéaire rapide des risques sous une pression antagoniste parallèle. Ce travail fournit une méthodologie peu coûteuse et évolutive pour une évaluation réaliste de la sécurité des LLM. Nous publierons notre code et nos scripts d'évaluation après la publication pour les recherches futures.
English
Large Language Models (LLMs) are typically evaluated for safety under single-shot or low-budget adversarial prompting, which underestimates real-world risk. In practice, attackers can exploit large-scale parallel sampling to repeatedly probe a model until a harmful response is produced. While recent work shows that attack success increases with repeated sampling, principled methods for predicting large-scale adversarial risk remain limited. We propose a scaling-aware Best-of-N estimation of risk, SABER, for modeling jailbreak vulnerability under Best-of-N sampling. We model sample-level success probabilities using a Beta distribution, the conjugate prior of the Bernoulli distribution, and derive an analytic scaling law that enables reliable extrapolation of large-N attack success rates from small-budget measurements. Using only n=100 samples, our anchored estimator predicts ASR@1000 with a mean absolute error of 1.66, compared to 12.04 for the baseline, which is an 86.2% reduction in estimation error. Our results reveal heterogeneous risk scaling profiles and show that models appearing robust under standard evaluation can experience rapid nonlinear risk amplification under parallel adversarial pressure. This work provides a low-cost, scalable methodology for realistic LLM safety assessment. We will release our code and evaluation scripts upon publication to future research.
PDF162February 3, 2026