RefusalBench: Generative Bewertung selektiver Verweigerung in fundierten Sprachmodellen

papers.abstract

Die Fähigkeit von Sprachmodellen in RAG-Systemen, selektiv die Beantwortung von Fragen basierend auf fehlerhaftem Kontext zu verweigern, ist entscheidend für die Sicherheit, bleibt jedoch ein erheblicher Schwachpunkt. Unsere groß angelegte Studie zeigt, dass selbst führende Modelle in diesem Kontext Schwierigkeiten haben, wobei die Genauigkeit der Verweigerung bei Aufgaben mit mehreren Dokumenten unter 50 % sinkt, während sie entweder gefährliche Überzuversicht oder übermäßige Vorsicht zeigen. Statische Benchmarks sind nicht zuverlässig in der Bewertung dieser Fähigkeit, da Modelle datensatzspezifische Artefakte ausnutzen und Testinstanzen auswendig lernen. Wir stellen RefusalBench vor, eine generative Methodik, die programmatisch diagnostische Testfälle durch kontrollierte linguistische Störungen erzeugt. Unser Framework verwendet 176 verschiedene Störungsstrategien über sechs Kategorien von Informationsunsicherheit und drei Intensitätsstufen hinweg. Die Bewertung von über 30 Modellen deckt systematische Fehlermuster auf: Die Verweigerung umfasst trennbare Fähigkeiten der Erkennung und Kategorisierung, weder Skalierung noch erweitertes Schlussfolgern verbessern die Leistung. Wir stellen fest, dass selektive Verweigerung eine trainierbare, ausrichtungsempfindliche Fähigkeit ist, die einen klaren Weg zur Verbesserung bietet. Wir veröffentlichen zwei Benchmarks – RefusalBench-NQ (einzelnes Dokument) und RefusalBench-GaRAGe (mehrere Dokumente) – sowie unser vollständiges Generierungsframework, um eine kontinuierliche, dynamische Bewertung dieser kritischen Fähigkeit zu ermöglichen.

English

The ability of language models in RAG systems to selectively refuse to answer based on flawed context is critical for safety, yet remains a significant failure point. Our large-scale study reveals that even frontier models struggle in this setting, with refusal accuracy dropping below 50% on multi-document tasks, while exhibiting either dangerous overconfidence or overcaution. Static benchmarks fail to reliably evaluate this capability, as models exploit dataset-specific artifacts and memorize test instances. We introduce RefusalBench, a generative methodology that programmatically creates diagnostic test cases through controlled linguistic perturbation. Our framework employs 176 distinct perturbation strategies across six categories of informational uncertainty and three intensity levels. Evaluation of over 30 models uncovers systematic failure patterns: refusal comprises separable detection and categorization skills, and neither scale nor extended reasoning improves performance. We find that selective refusal is a trainable, alignment-sensitive capability, offering a clear path for improvement. We release two benchmarks -- RefusalBench-NQ (single document) and RefusalBench-GaRAGe (multi-document) -- and our complete generation framework to enable continued, dynamic evaluation of this critical capability.

RefusalBench: Generative Bewertung selektiver Verweigerung in fundierten Sprachmodellen

RefusalBench: Generative Evaluation of Selective Refusal in Grounded Language Models

papers.abstract

Support