Stima Statistica del Rischio Avversariale nei Grandi Modelli Linguistici sotto Campionamento Best-of-N

Abstract

I modelli linguistici di grandi dimensioni (LLM) vengono generalmente valutati per la sicurezza mediante prompt avversari one-shot o a basso budget, il che sottostima il rischio nel mondo reale. Nella pratica, gli attaccanti possono sfruttare il campionamento parallelo su larga scala per sondare ripetutamente un modello finché non viene prodotta una risposta dannosa. Sebbene lavori recenti mostrino che il successo degli attacchi aumenta con il campionamento ripetuto, i metodi basati su principi per prevedere il rischio avversario su larga scala rimangono limitati. Proponiamo una stima del rischio Best-of-N consapevole del scaling, denominata SABER, per modellare la vulnerabilità al jailbreak sotto campionamento Best-of-N. Modelliamo le probabilità di successo a livello di campione utilizzando una distribuzione Beta, il priore coniugato della distribuzione di Bernoulli, e deriviamo una legge di scaling analitica che consente l'estrapolazione affidabile dei tassi di successo di attacco per N elevati a partire da misurazioni a basso budget. Utilizzando solo n=100 campioni, il nostro stimatore ancorato predice ASR@1000 con un errore assoluto medio di 1,66, rispetto a 12,04 del baseline, che corrisponde a una riduzione del 86,2% nell'errore di stima. I nostri risultati rivelano profili di scaling del rischio eterogenei e mostrano che modelli che appaiono robusti sotto valutazioni standard possono sperimentare una rapida amplificazione non lineare del rischio sotto pressione avversaria parallela. Questo lavoro fornisce una metodologia a basso costo e scalabile per una valutazione realistica della sicurezza degli LLM. Rilasceremo il nostro codice e gli script di valutazione alla pubblicazione per la ricerca futura.

English

Large Language Models (LLMs) are typically evaluated for safety under single-shot or low-budget adversarial prompting, which underestimates real-world risk. In practice, attackers can exploit large-scale parallel sampling to repeatedly probe a model until a harmful response is produced. While recent work shows that attack success increases with repeated sampling, principled methods for predicting large-scale adversarial risk remain limited. We propose a scaling-aware Best-of-N estimation of risk, SABER, for modeling jailbreak vulnerability under Best-of-N sampling. We model sample-level success probabilities using a Beta distribution, the conjugate prior of the Bernoulli distribution, and derive an analytic scaling law that enables reliable extrapolation of large-N attack success rates from small-budget measurements. Using only n=100 samples, our anchored estimator predicts ASR@1000 with a mean absolute error of 1.66, compared to 12.04 for the baseline, which is an 86.2% reduction in estimation error. Our results reveal heterogeneous risk scaling profiles and show that models appearing robust under standard evaluation can experience rapid nonlinear risk amplification under parallel adversarial pressure. This work provides a low-cost, scalable methodology for realistic LLM safety assessment. We will release our code and evaluation scripts upon publication to future research.

Stima Statistica del Rischio Avversariale nei Grandi Modelli Linguistici sotto Campionamento Best-of-N

Statistical Estimation of Adversarial Risk in Large Language Models under Best-of-N Sampling

Abstract

Support