Statistische Schätzung des adversarischen Risikos in großen Sprachmodellen unter Best-of-N-Sampling
Statistical Estimation of Adversarial Risk in Large Language Models under Best-of-N Sampling
January 30, 2026
papers.authors: Mingqian Feng, Xiaodong Liu, Weiwei Yang, Chenliang Xu, Christopher White, Jianfeng Gao
cs.AI
papers.abstract
Große Sprachmodelle (LLMs) werden typischerweise auf Sicherheit unter Einzelabfrage- oder Niedrigbudget-Adversarial-Prompting evaluiert, was das reale Risiko unterschätzt. In der Praxis können Angreifer großskaliges paralleles Sampling ausnutzen, um ein Modell wiederholt zu testen, bis eine schädliche Antwort erzeugt wird. Während neuere Arbeiten zeigen, dass der Angriffserfolg mit wiederholtem Sampling steigt, bleiben prinzipielle Methoden zur Vorhersage großskaliger adversarieller Risiken begrenzt. Wir schlagen eine skalierungsbewusste Best-of-N-Risikoschätzung, SABER, zur Modellierung der Jailbreak-Anfälligkeit unter Best-of-N-Sampling vor. Wir modellieren probenbezogene Erfolgswahrscheinlichkeiten mittels einer Beta-Verteilung, dem konjugierten Prior der Bernoulli-Verteilung, und leiten ein analytisches Skalengesetz ab, das eine zuverlässige Extrapolation der Angriffserfolgsrate bei großem N aus Messungen mit kleinem Budget ermöglicht. Unter Verwendung von nur n=100 Proben sagt unser verankerter Schätzer ASR@1000 mit einem mittleren absoluten Fehler von 1,66 vorher, verglichen mit 12,04 für die Baseline, was einer Reduktion des Schätzfehlers um 86,2 % entspricht. Unsere Ergebnisse zeigen heterogene Risikoprofile und belegen, dass Modelle, die unter Standardevaluation robust erscheinen, unter parallelem adversariellem Druck eine rasche nichtlineare Risikoverstärkung erfahren können. Diese Arbeit bietet eine kostengünstige, skalierbare Methodik für realistische Sicherheitsbewertungen von LLMs. Wir werden unseren Code und unsere Evaluierungsskripte mit der Veröffentlichung für die zukünftige Forschung freigeben.
English
Large Language Models (LLMs) are typically evaluated for safety under single-shot or low-budget adversarial prompting, which underestimates real-world risk. In practice, attackers can exploit large-scale parallel sampling to repeatedly probe a model until a harmful response is produced. While recent work shows that attack success increases with repeated sampling, principled methods for predicting large-scale adversarial risk remain limited. We propose a scaling-aware Best-of-N estimation of risk, SABER, for modeling jailbreak vulnerability under Best-of-N sampling. We model sample-level success probabilities using a Beta distribution, the conjugate prior of the Bernoulli distribution, and derive an analytic scaling law that enables reliable extrapolation of large-N attack success rates from small-budget measurements. Using only n=100 samples, our anchored estimator predicts ASR@1000 with a mean absolute error of 1.66, compared to 12.04 for the baseline, which is an 86.2% reduction in estimation error. Our results reveal heterogeneous risk scaling profiles and show that models appearing robust under standard evaluation can experience rapid nonlinear risk amplification under parallel adversarial pressure. This work provides a low-cost, scalable methodology for realistic LLM safety assessment. We will release our code and evaluation scripts upon publication to future research.