Statistische schatting van adversariële risico's in grootschalige taalmodelen bij Best-of-N-steekproefname

Samenvatting

Grote Taalmodellen (LLM's) worden doorgaans geëvalueerd op veiligheid onder single-shot of low-budget adversariële prompting, wat het reële risico onderschat. In de praktijk kunnen aanvallers grootschalige parallelle sampling exploiteren om een model herhaaldelijk te testen totdat een schadelijke respons wordt geproduceerd. Hoewel recent werk aantoont dat de aanvalssucceskans toeneemt bij herhaalde sampling, blijven principiële methoden voor het voorspellen van grootschalig adversarieel risico beperkt. Wij stellen een schaalingsbewuste Best-of-N risicoschatting voor, SABER genaamd, voor het modelleren van jailbreak-kwetsbaarheid onder Best-of-N sampling. We modelleren succeskansen op sampelniveau met behulp van een Beta-verdeling, de geconjugeerde prior van de Bernoulli-verdeling, en leiden een analytische schaalwet af die betrouwbare extrapolatie van grootschalige aanvalssuccespercentages (large-N) mogelijk maakt op basis van metingen met een klein budget. Met slechts n=100 samples voorspelt onze verankerde schatter ASR@1000 met een gemiddelde absolute fout van 1,66, vergeleken met 12,04 voor de baseline, wat een vermindering van de schattingsfout met 86,2% is. Onze resultaten onthullen heterogene risicoschalingsprofielen en tonen aan dat modellen die robuust lijken onder standaardevaluatie een snelle niet-lineaire risicoamplificatie kunnen ondergaan onder parallelle adversariële druk. Dit werk biedt een kosteneffectieve, schaalbare methodologie voor realistische veiligheidsbeoordeling van LLM's. Wij zullen onze code en evaluatiescripts vrijgeven na publicatie ter ondersteuning van toekomstig onderzoek.

English

Large Language Models (LLMs) are typically evaluated for safety under single-shot or low-budget adversarial prompting, which underestimates real-world risk. In practice, attackers can exploit large-scale parallel sampling to repeatedly probe a model until a harmful response is produced. While recent work shows that attack success increases with repeated sampling, principled methods for predicting large-scale adversarial risk remain limited. We propose a scaling-aware Best-of-N estimation of risk, SABER, for modeling jailbreak vulnerability under Best-of-N sampling. We model sample-level success probabilities using a Beta distribution, the conjugate prior of the Bernoulli distribution, and derive an analytic scaling law that enables reliable extrapolation of large-N attack success rates from small-budget measurements. Using only n=100 samples, our anchored estimator predicts ASR@1000 with a mean absolute error of 1.66, compared to 12.04 for the baseline, which is an 86.2% reduction in estimation error. Our results reveal heterogeneous risk scaling profiles and show that models appearing robust under standard evaluation can experience rapid nonlinear risk amplification under parallel adversarial pressure. This work provides a low-cost, scalable methodology for realistic LLM safety assessment. We will release our code and evaluation scripts upon publication to future research.

Statistische schatting van adversariële risico's in grootschalige taalmodelen bij Best-of-N-steekproefname

Statistical Estimation of Adversarial Risk in Large Language Models under Best-of-N Sampling

Samenvatting

Support