RefusalBench: Valutazione Generativa del Rifiuto Selettivo nei Modelli Linguistici con Base Contestuale
RefusalBench: Generative Evaluation of Selective Refusal in Grounded Language Models
October 12, 2025
Autori: Aashiq Muhamed, Leonardo F. R. Ribeiro, Markus Dreyer, Virginia Smith, Mona T. Diab
cs.AI
Abstract
La capacità dei modelli linguistici nei sistemi RAG di rifiutarsi selettivamente di rispondere basandosi su contesti difettosi è cruciale per la sicurezza, ma rimane un punto di fallimento significativo. Il nostro studio su larga scala rivela che anche i modelli più avanzati faticano in questo contesto, con un'accuratezza nel rifiuto che scende al di sotto del 50% in compiti multi-documento, mostrando sia una pericolosa eccessiva sicurezza che un'eccessiva cautela. I benchmark statici non riescono a valutare in modo affidabile questa capacità, poiché i modelli sfruttano artefatti specifici dei dataset e memorizzano le istanze di test. Introduciamo RefusalBench, una metodologia generativa che crea programmaticamente casi di test diagnostici attraverso perturbazioni linguistiche controllate. Il nostro framework impiega 176 strategie di perturbazione distinte, suddivise in sei categorie di incertezza informativa e tre livelli di intensità. La valutazione di oltre 30 modelli rivela schemi di fallimento sistematici: il rifiuto comprende abilità separabili di rilevamento e categorizzazione, e né la scala né il ragionamento esteso migliorano le prestazioni. Scopriamo che il rifiuto selettivo è una capacità addestrabile e sensibile all'allineamento, offrendo un percorso chiaro per il miglioramento. Rilasciamo due benchmark — RefusalBench-NQ (documento singolo) e RefusalBench-GaRAGe (multi-documento) — e il nostro framework di generazione completo per consentire una valutazione continua e dinamica di questa capacità critica.
English
The ability of language models in RAG systems to selectively refuse to answer
based on flawed context is critical for safety, yet remains a significant
failure point. Our large-scale study reveals that even frontier models struggle
in this setting, with refusal accuracy dropping below 50% on multi-document
tasks, while exhibiting either dangerous overconfidence or overcaution. Static
benchmarks fail to reliably evaluate this capability, as models exploit
dataset-specific artifacts and memorize test instances. We introduce
RefusalBench, a generative methodology that programmatically creates diagnostic
test cases through controlled linguistic perturbation. Our framework employs
176 distinct perturbation strategies across six categories of informational
uncertainty and three intensity levels. Evaluation of over 30 models uncovers
systematic failure patterns: refusal comprises separable detection and
categorization skills, and neither scale nor extended reasoning improves
performance. We find that selective refusal is a trainable, alignment-sensitive
capability, offering a clear path for improvement. We release two benchmarks --
RefusalBench-NQ (single document) and RefusalBench-GaRAGe (multi-document) --
and our complete generation framework to enable continued, dynamic evaluation
of this critical capability.