RefusalBench: Generatieve Evaluatie van Selectieve Weigering in Gegronde Taalmodellen
RefusalBench: Generative Evaluation of Selective Refusal in Grounded Language Models
October 12, 2025
Auteurs: Aashiq Muhamed, Leonardo F. R. Ribeiro, Markus Dreyer, Virginia Smith, Mona T. Diab
cs.AI
Samenvatting
Het vermogen van taalmodelen in RAG-systemen om selectief te weigeren te antwoorden op basis van gebrekkige context is cruciaal voor veiligheid, maar blijft een belangrijk falingspunt. Ons grootschalige onderzoek toont aan dat zelfs toonaangevende modellen hier moeite mee hebben, waarbij de nauwkeurigheid van weigering onder de 50% daalt bij taken met meerdere documenten, terwijl ze óf gevaarlijk overmoedig óf overdreven voorzichtig zijn. Statische benchmarks slagen er niet in om deze capaciteit betrouwbaar te evalueren, aangezien modellen datasetspecifieke artefacten uitbuiten en testgevallen uit het hoofd leren. We introduceren RefusalBench, een generatieve methodologie die programmatisch diagnostische testgevallen creëert door middel van gecontroleerde linguïstische perturbatie. Ons framework maakt gebruik van 176 verschillende perturbatiestrategieën, verdeeld over zes categorieën van informatieve onzekerheid en drie intensiteitsniveaus. Evaluatie van meer dan 30 modellen onthult systematische faalpatronen: weigering bestaat uit afzonderlijke detectie- en categorisatievaardigheden, en noch schaal noch uitgebreid redeneren verbetert de prestaties. We ontdekken dat selectieve weigering een trainbare, alignment-gevoelige capaciteit is, wat een duidelijk pad biedt voor verbetering. We brengen twee benchmarks uit -- RefusalBench-NQ (enkel document) en RefusalBench-GaRAGe (meerdere documenten) -- en ons volledige generatieframework om voortdurende, dynamische evaluatie van deze kritieke capaciteit mogelijk te maken.
English
The ability of language models in RAG systems to selectively refuse to answer
based on flawed context is critical for safety, yet remains a significant
failure point. Our large-scale study reveals that even frontier models struggle
in this setting, with refusal accuracy dropping below 50% on multi-document
tasks, while exhibiting either dangerous overconfidence or overcaution. Static
benchmarks fail to reliably evaluate this capability, as models exploit
dataset-specific artifacts and memorize test instances. We introduce
RefusalBench, a generative methodology that programmatically creates diagnostic
test cases through controlled linguistic perturbation. Our framework employs
176 distinct perturbation strategies across six categories of informational
uncertainty and three intensity levels. Evaluation of over 30 models uncovers
systematic failure patterns: refusal comprises separable detection and
categorization skills, and neither scale nor extended reasoning improves
performance. We find that selective refusal is a trainable, alignment-sensitive
capability, offering a clear path for improvement. We release two benchmarks --
RefusalBench-NQ (single document) and RefusalBench-GaRAGe (multi-document) --
and our complete generation framework to enable continued, dynamic evaluation
of this critical capability.