Estimativa Estatística do Risco Adversarial em Modelos de Linguagem de Grande Escala sob Amostragem Best-of-N

Resumo

Os Modelos de Linguagem de Grande Porte (LLMs) são normalmente avaliados quanto à segurança sob *prompts* adversariais de orçamento único ou baixo, o que subestima o risco do mundo real. Na prática, os atacantes podem explorar a amostragem paralela em larga escala para sondar repetidamente um modelo até que uma resposta prejudicial seja produzida. Embora trabalhos recentes mostrem que o sucesso do ataque aumenta com a amostragem repetida, os métodos fundamentados para prever o risco adversarial em larga escala permanecem limitados. Propomos uma estimativa de risco consciente da escala para N amostras, a SABER, para modelar a vulnerabilidade de *jailbreak* sob amostragem do tipo "Melhor de N". Modelamos as probabilidades de sucesso a nível de amostra usando uma distribuição Beta, o prior conjugado da distribuição Bernoulli, e derivamos uma lei de escala analítica que permite a extrapolação confiável das taxas de sucesso de ataque para N grande a partir de medições de orçamento pequeno. Utilizando apenas n=100 amostras, o nosso estimador ancorado prevê ASR@1000 com um erro absoluto médio de 1,66, comparado com 12,04 para a linha de base, o que representa uma redução de 86,2% no erro de estimativa. Os nossos resultados revelam perfis heterogéneos de escalonamento de risco e mostram que modelos que parecem robustos sob avaliação padrão podem sofrer uma amplificação de risco não linear rápida sob pressão adversária paralela. Este trabalho fornece uma metodologia de baixo custo e escalável para a avaliação realista da segurança de LLMs. Disponibilizaremos o nosso código e scripts de avaliação após a publicação para pesquisas futuras.

English

Large Language Models (LLMs) are typically evaluated for safety under single-shot or low-budget adversarial prompting, which underestimates real-world risk. In practice, attackers can exploit large-scale parallel sampling to repeatedly probe a model until a harmful response is produced. While recent work shows that attack success increases with repeated sampling, principled methods for predicting large-scale adversarial risk remain limited. We propose a scaling-aware Best-of-N estimation of risk, SABER, for modeling jailbreak vulnerability under Best-of-N sampling. We model sample-level success probabilities using a Beta distribution, the conjugate prior of the Bernoulli distribution, and derive an analytic scaling law that enables reliable extrapolation of large-N attack success rates from small-budget measurements. Using only n=100 samples, our anchored estimator predicts ASR@1000 with a mean absolute error of 1.66, compared to 12.04 for the baseline, which is an 86.2% reduction in estimation error. Our results reveal heterogeneous risk scaling profiles and show that models appearing robust under standard evaluation can experience rapid nonlinear risk amplification under parallel adversarial pressure. This work provides a low-cost, scalable methodology for realistic LLM safety assessment. We will release our code and evaluation scripts upon publication to future research.

Estimativa Estatística do Risco Adversarial em Modelos de Linguagem de Grande Escala sob Amostragem Best-of-N

Statistical Estimation of Adversarial Risk in Large Language Models under Best-of-N Sampling

Resumo

Support