Статистическая оценка риска атаки в больших языковых моделях при выборке Best-of-N
Statistical Estimation of Adversarial Risk in Large Language Models under Best-of-N Sampling
January 30, 2026
Авторы: Mingqian Feng, Xiaodong Liu, Weiwei Yang, Chenliang Xu, Christopher White, Jianfeng Gao
cs.AI
Аннотация
Крупные языковые модели (LLM) обычно оцениваются на безопасность в условиях однократного или низкобюджетного адверсарного промптинга, что недооценивает риски в реальных условиях. На практике злоумышленники могут использовать крупномасштабное параллельное сэмплирование для многократного зондирования модели до получения вредоносного ответа. Хотя последние исследования показывают, что успешность атаки возрастает с увеличением числа повторов, принципиальные методы прогнозирования крупномасштабного адверсарного риска остаются ограниченными. Мы предлагаем масштабируемую оценку риска Best-of-N (SABER) для моделирования уязвимости к взлому (jailbreak) при сэмплировании по схеме Best-of-N. Мы моделируем вероятности успеха на уровне сэмплов с помощью бета-распределения, являющегося сопряжённым априорным для распределения Бернулли, и выводим аналитический закон масштабирования, который позволяет надёжно экстраполировать показатели успешности атаки для большого N на основе измерений с малым бюджетом. Используя всего n=100 сэмплов, наш анкерный оценщик предсказывает ASR@1000 со средней абсолютной ошибкой 1,66 по сравнению с 12,04 у базового метода, что означает снижение ошибки оценки на 86,2%. Наши результаты выявляют неоднородные профили масштабирования риска и показывают, что модели, кажущиеся устойчивыми при стандартной оценке, могут испытывать быстрое нелинейное усиление риска под параллельным адверсарным воздействием. Данная работа предлагает экономичную и масштабируемую методологию для реалистичной оценки безопасности LLM. Мы опубликуем наш код и скрипты для оценки после публикации в интересах будущих исследований.
English
Large Language Models (LLMs) are typically evaluated for safety under single-shot or low-budget adversarial prompting, which underestimates real-world risk. In practice, attackers can exploit large-scale parallel sampling to repeatedly probe a model until a harmful response is produced. While recent work shows that attack success increases with repeated sampling, principled methods for predicting large-scale adversarial risk remain limited. We propose a scaling-aware Best-of-N estimation of risk, SABER, for modeling jailbreak vulnerability under Best-of-N sampling. We model sample-level success probabilities using a Beta distribution, the conjugate prior of the Bernoulli distribution, and derive an analytic scaling law that enables reliable extrapolation of large-N attack success rates from small-budget measurements. Using only n=100 samples, our anchored estimator predicts ASR@1000 with a mean absolute error of 1.66, compared to 12.04 for the baseline, which is an 86.2% reduction in estimation error. Our results reveal heterogeneous risk scaling profiles and show that models appearing robust under standard evaluation can experience rapid nonlinear risk amplification under parallel adversarial pressure. This work provides a low-cost, scalable methodology for realistic LLM safety assessment. We will release our code and evaluation scripts upon publication to future research.