ChatPaper.aiChatPaper

Estimación Estadística del Riesgo Adversario en Modelos de Lenguaje a Gran Escala bajo Muestreo Mejor-de-N

Statistical Estimation of Adversarial Risk in Large Language Models under Best-of-N Sampling

January 30, 2026
Autores: Mingqian Feng, Xiaodong Liu, Weiwei Yang, Chenliang Xu, Christopher White, Jianfeng Gao
cs.AI

Resumen

Los modelos de lenguaje grandes (LLM) suelen evaluarse en términos de seguridad mediante *prompts* adversarios de un solo intento o de bajo presupuesto, lo que subestima el riesgo en escenarios reales. En la práctica, los atacantes pueden explotar el muestreo paralelo a gran escala para sondear repetidamente un modelo hasta obtener una respuesta dañina. Aunque trabajos recientes demuestran que el éxito del ataque aumenta con el muestreo repetido, los métodos fundamentados para predecir el riesgo adversario a gran escala siguen siendo limitados. Proponemos una estimación del riesgo consciente de la escalabilidad, denominada SABER, para modelar la vulnerabilidad de *jailbreak* bajo un muestreo de tipo Mejor-de-N. Modelamos las probabilidades de éxito a nivel de muestra utilizando una distribución Beta, el prior conjugado de la distribución Bernoulli, y derivamos una ley de escalado analítica que permite extrapolar de forma fiable las tasas de éxito de ataques a N grande a partir de mediciones con presupuesto pequeño. Utilizando solo n=100 muestras, nuestro estimador anclado predice ASR@1000 con un error absoluto medio de 1,66, frente a 12,04 de la línea base, lo que supone una reducción del 86,2% en el error de estimación. Nuestros resultados revelan perfiles de escalado de riesgo heterogéneos y muestran que modelos que parecen robustos bajo evaluaciones estándar pueden experimentar una rápida amplificación no lineal del riesgo bajo presión adversaria paralela. Este trabajo proporciona una metodología escalable y de bajo coste para una evaluación realista de la seguridad de los LLM. Liberaremos nuestro código y scripts de evaluación tras la publicación para futuras investigaciones.
English
Large Language Models (LLMs) are typically evaluated for safety under single-shot or low-budget adversarial prompting, which underestimates real-world risk. In practice, attackers can exploit large-scale parallel sampling to repeatedly probe a model until a harmful response is produced. While recent work shows that attack success increases with repeated sampling, principled methods for predicting large-scale adversarial risk remain limited. We propose a scaling-aware Best-of-N estimation of risk, SABER, for modeling jailbreak vulnerability under Best-of-N sampling. We model sample-level success probabilities using a Beta distribution, the conjugate prior of the Bernoulli distribution, and derive an analytic scaling law that enables reliable extrapolation of large-N attack success rates from small-budget measurements. Using only n=100 samples, our anchored estimator predicts ASR@1000 with a mean absolute error of 1.66, compared to 12.04 for the baseline, which is an 86.2% reduction in estimation error. Our results reveal heterogeneous risk scaling profiles and show that models appearing robust under standard evaluation can experience rapid nonlinear risk amplification under parallel adversarial pressure. This work provides a low-cost, scalable methodology for realistic LLM safety assessment. We will release our code and evaluation scripts upon publication to future research.
PDF162February 3, 2026