RefusalBench: 근거 기반 언어 모델의 선택적 거부에 대한 생성적 평가
RefusalBench: Generative Evaluation of Selective Refusal in Grounded Language Models
October 12, 2025
저자: Aashiq Muhamed, Leonardo F. R. Ribeiro, Markus Dreyer, Virginia Smith, Mona T. Diab
cs.AI
초록
RAG 시스템에서 언어 모델이 결함이 있는 문맥을 기반으로 선택적으로 답변을 거부하는 능력은 안전을 위해 중요하지만, 여전히 주요 실패 지점으로 남아 있습니다. 우리의 대규모 연구에 따르면, 최첨단 모델들조차도 이러한 설정에서 어려움을 겪으며, 다중 문서 작업에서 거부 정확도가 50% 미만으로 떨어지고, 위험한 과신 또는 지나친 신중함을 보이는 것으로 나타났습니다. 정적 벤치마크는 모델이 데이터셋 특이적 아티팩트를 이용하고 테스트 사례를 암기하기 때문에 이 능력을 신뢰성 있게 평가하지 못합니다. 우리는 RefusalBench을 도입하여, 통제된 언어적 변형을 통해 프로그래밍적으로 진단 테스트 케이스를 생성하는 방법론을 제시합니다. 우리의 프레임워크는 정보적 불확실성의 여섯 가지 범주와 세 가지 강도 수준에 걸쳐 176개의 독특한 변형 전략을 사용합니다. 30개 이상의 모델을 평가한 결과, 체계적인 실패 패턴이 발견되었습니다: 거부는 탐지와 분류 기술로 분리 가능하며, 규모나 확장된 추론도 성능을 개선하지 못했습니다. 우리는 선택적 거부가 훈련 가능하고 정렬에 민감한 능력임을 발견했으며, 이를 개선할 수 있는 명확한 경로를 제시합니다. 우리는 이 중요한 능력을 지속적이고 동적으로 평가할 수 있도록 두 가지 벤치마크 -- RefusalBench-NQ(단일 문서)와 RefusalBench-GaRAGe(다중 문서) -- 그리고 전체 생성 프레임워크를 공개합니다.
English
The ability of language models in RAG systems to selectively refuse to answer
based on flawed context is critical for safety, yet remains a significant
failure point. Our large-scale study reveals that even frontier models struggle
in this setting, with refusal accuracy dropping below 50% on multi-document
tasks, while exhibiting either dangerous overconfidence or overcaution. Static
benchmarks fail to reliably evaluate this capability, as models exploit
dataset-specific artifacts and memorize test instances. We introduce
RefusalBench, a generative methodology that programmatically creates diagnostic
test cases through controlled linguistic perturbation. Our framework employs
176 distinct perturbation strategies across six categories of informational
uncertainty and three intensity levels. Evaluation of over 30 models uncovers
systematic failure patterns: refusal comprises separable detection and
categorization skills, and neither scale nor extended reasoning improves
performance. We find that selective refusal is a trainable, alignment-sensitive
capability, offering a clear path for improvement. We release two benchmarks --
RefusalBench-NQ (single document) and RefusalBench-GaRAGe (multi-document) --
and our complete generation framework to enable continued, dynamic evaluation
of this critical capability.