ChatPaper.aiChatPaper

최선의 N개 샘플링 하에서 대규모 언어 모델의 적대적 위험 통계적 추정

Statistical Estimation of Adversarial Risk in Large Language Models under Best-of-N Sampling

January 30, 2026
저자: Mingqian Feng, Xiaodong Liu, Weiwei Yang, Chenliang Xu, Christopher White, Jianfeng Gao
cs.AI

초록

대규모 언어 모델(LLM)의 안전성은 일반적으로 단일 샷(single-shot) 또는 낮은 예산의 적대적 프롬프팅 하에서 평가되며, 이는 실제 위험을 과소평가합니다. 실제로 공격자는 대규모 병렬 샘플링을 활용하여 모델이 유해한 응답을 생성할 때까지 반복적으로 탐색할 수 있습니다. 최근 연구에서는 반복 샘플링에 따라 공격 성공률이 증가한다는 것이 밝혀졌지만, 대규모 적대적 위험을 예측하기 위한 원리 기반 방법론은 여전히 부족합니다. 본 연구에서는 Best-of-N 샘플링 하의 재블레이크(jailbreak) 취약성 모델링을 위해 확장성을 고려한 Best-of-N 위험 추정법인 SABER를 제안합니다. 샘플 수준의 성공 확률을 베르누이 분포의 켤레 사전 확률(conjugate prior)인 베타 분포(Beta distribution)로 모델링하고, 소규모 예산 측정치로부터 대규모 N 공격 성공률을 신뢰성 있게 추정할 수 있는 해석적 확장 법칙(analytic scaling law)을 유도합니다. n=100개의 샘플만 사용하여, 우리의 anchored 추정기는 ASR@1000을 평균 절대 오차 1.66으로 예측하는 반면, 기준 방법의 오차는 12.04로 추정 오차가 86.2% 감소했습니다. 우리의 결과는 다양한 위험 확장 프로파일을 보여주며, 표준 평가 하에서 견고해 보이는 모델들도 병렬 적대적 압력 하에서는 빠른 비선형적 위험 증폭을 경험할 수 있음을 입증합니다. 본 연구는 현실적인 LLM 안전성 평가를 위한 저비용 및 확장 가능한 방법론을 제공합니다. 향후 연구를 위해 출판 시 코드와 평가 스크립트를 공개할 예정입니다.
English
Large Language Models (LLMs) are typically evaluated for safety under single-shot or low-budget adversarial prompting, which underestimates real-world risk. In practice, attackers can exploit large-scale parallel sampling to repeatedly probe a model until a harmful response is produced. While recent work shows that attack success increases with repeated sampling, principled methods for predicting large-scale adversarial risk remain limited. We propose a scaling-aware Best-of-N estimation of risk, SABER, for modeling jailbreak vulnerability under Best-of-N sampling. We model sample-level success probabilities using a Beta distribution, the conjugate prior of the Bernoulli distribution, and derive an analytic scaling law that enables reliable extrapolation of large-N attack success rates from small-budget measurements. Using only n=100 samples, our anchored estimator predicts ASR@1000 with a mean absolute error of 1.66, compared to 12.04 for the baseline, which is an 86.2% reduction in estimation error. Our results reveal heterogeneous risk scaling profiles and show that models appearing robust under standard evaluation can experience rapid nonlinear risk amplification under parallel adversarial pressure. This work provides a low-cost, scalable methodology for realistic LLM safety assessment. We will release our code and evaluation scripts upon publication to future research.
PDF162February 3, 2026