RefusalBench : Évaluation générative du refus sélectif dans les modèles de langage ancrés

papers.abstract

La capacité des modèles de langage dans les systèmes RAG à refuser sélectivement de répondre en se basant sur un contexte défaillant est cruciale pour la sécurité, mais reste un point de défaillance majeur. Notre étude à grande échelle révèle que même les modèles les plus avancés peinent dans ce contexte, avec une précision de refus tombant en dessous de 50 % pour les tâches multi-documents, tout en manifestant soit une confiance excessive dangereuse, soit une prudence exagérée. Les benchmarks statiques échouent à évaluer de manière fiable cette capacité, car les modèles exploitent des artefacts spécifiques aux jeux de données et mémorisent les instances de test. Nous introduisons RefusalBench, une méthodologie générative qui crée programmatiquement des cas de test diagnostiques par perturbation linguistique contrôlée. Notre cadre utilise 176 stratégies de perturbation distinctes réparties en six catégories d'incertitude informationnelle et trois niveaux d'intensité. L'évaluation de plus de 30 modèles révèle des schémas de défaillance systématiques : le refus comprend des compétences distinctes de détection et de catégorisation, et ni l'échelle ni le raisonnement étendu n'améliorent les performances. Nous constatons que le refus sélectif est une capacité entraînable et sensible à l'alignement, offrant une voie claire pour l'amélioration. Nous publions deux benchmarks — RefusalBench-NQ (document unique) et RefusalBench-GaRAGe (multi-documents) — ainsi que notre cadre de génération complet pour permettre une évaluation continue et dynamique de cette capacité critique.

English

The ability of language models in RAG systems to selectively refuse to answer based on flawed context is critical for safety, yet remains a significant failure point. Our large-scale study reveals that even frontier models struggle in this setting, with refusal accuracy dropping below 50% on multi-document tasks, while exhibiting either dangerous overconfidence or overcaution. Static benchmarks fail to reliably evaluate this capability, as models exploit dataset-specific artifacts and memorize test instances. We introduce RefusalBench, a generative methodology that programmatically creates diagnostic test cases through controlled linguistic perturbation. Our framework employs 176 distinct perturbation strategies across six categories of informational uncertainty and three intensity levels. Evaluation of over 30 models uncovers systematic failure patterns: refusal comprises separable detection and categorization skills, and neither scale nor extended reasoning improves performance. We find that selective refusal is a trainable, alignment-sensitive capability, offering a clear path for improvement. We release two benchmarks -- RefusalBench-NQ (single document) and RefusalBench-GaRAGe (multi-document) -- and our complete generation framework to enable continued, dynamic evaluation of this critical capability.

RefusalBench : Évaluation générative du refus sélectif dans les modèles de langage ancrés

RefusalBench: Generative Evaluation of Selective Refusal in Grounded Language Models

papers.abstract

Support