ChatPaper.aiChatPaper

RefusalBench: Generatieve Evaluatie van Selectieve Weigering in Gegronde Taalmodellen

RefusalBench: Generative Evaluation of Selective Refusal in Grounded Language Models

October 12, 2025
Auteurs: Aashiq Muhamed, Leonardo F. R. Ribeiro, Markus Dreyer, Virginia Smith, Mona T. Diab
cs.AI

Samenvatting

Het vermogen van taalmodelen in RAG-systemen om selectief te weigeren te antwoorden op basis van gebrekkige context is cruciaal voor veiligheid, maar blijft een belangrijk falingspunt. Ons grootschalige onderzoek toont aan dat zelfs toonaangevende modellen hier moeite mee hebben, waarbij de nauwkeurigheid van weigering onder de 50% daalt bij taken met meerdere documenten, terwijl ze óf gevaarlijk overmoedig óf overdreven voorzichtig zijn. Statische benchmarks slagen er niet in om deze capaciteit betrouwbaar te evalueren, aangezien modellen datasetspecifieke artefacten uitbuiten en testgevallen uit het hoofd leren. We introduceren RefusalBench, een generatieve methodologie die programmatisch diagnostische testgevallen creëert door middel van gecontroleerde linguïstische perturbatie. Ons framework maakt gebruik van 176 verschillende perturbatiestrategieën, verdeeld over zes categorieën van informatieve onzekerheid en drie intensiteitsniveaus. Evaluatie van meer dan 30 modellen onthult systematische faalpatronen: weigering bestaat uit afzonderlijke detectie- en categorisatievaardigheden, en noch schaal noch uitgebreid redeneren verbetert de prestaties. We ontdekken dat selectieve weigering een trainbare, alignment-gevoelige capaciteit is, wat een duidelijk pad biedt voor verbetering. We brengen twee benchmarks uit -- RefusalBench-NQ (enkel document) en RefusalBench-GaRAGe (meerdere documenten) -- en ons volledige generatieframework om voortdurende, dynamische evaluatie van deze kritieke capaciteit mogelijk te maken.
English
The ability of language models in RAG systems to selectively refuse to answer based on flawed context is critical for safety, yet remains a significant failure point. Our large-scale study reveals that even frontier models struggle in this setting, with refusal accuracy dropping below 50% on multi-document tasks, while exhibiting either dangerous overconfidence or overcaution. Static benchmarks fail to reliably evaluate this capability, as models exploit dataset-specific artifacts and memorize test instances. We introduce RefusalBench, a generative methodology that programmatically creates diagnostic test cases through controlled linguistic perturbation. Our framework employs 176 distinct perturbation strategies across six categories of informational uncertainty and three intensity levels. Evaluation of over 30 models uncovers systematic failure patterns: refusal comprises separable detection and categorization skills, and neither scale nor extended reasoning improves performance. We find that selective refusal is a trainable, alignment-sensitive capability, offering a clear path for improvement. We release two benchmarks -- RefusalBench-NQ (single document) and RefusalBench-GaRAGe (multi-document) -- and our complete generation framework to enable continued, dynamic evaluation of this critical capability.
PDF12October 17, 2025