ОтказнаяОценка: Генеративная оценка избирательного отказа в обоснованных языковых моделях
RefusalBench: Generative Evaluation of Selective Refusal in Grounded Language Models
October 12, 2025
Авторы: Aashiq Muhamed, Leonardo F. R. Ribeiro, Markus Dreyer, Virginia Smith, Mona T. Diab
cs.AI
Аннотация
Способность языковых моделей в системах RAG избирательно отказываться отвечать на основе некорректного контекста имеет критическое значение для безопасности, однако остается значительной точкой сбоя. Наше масштабное исследование показывает, что даже передовые модели испытывают трудности в таких условиях, при этом точность отказа падает ниже 50% в задачах с использованием нескольких документов, демонстрируя либо опасную избыточную уверенность, либо чрезмерную осторожность. Статические бенчмарки не позволяют надежно оценить эту способность, так как модели используют специфические артефакты наборов данных и запоминают тестовые примеры. Мы представляем RefusalBench — генеративную методологию, которая программно создает диагностические тестовые случаи с помощью контролируемых лингвистических возмущений. Наша структура включает 176 различных стратегий возмущений, охватывающих шесть категорий информационной неопределенности и три уровня интенсивности. Оценка более 30 моделей выявляет систематические паттерны сбоев: отказ включает отдельные навыки обнаружения и категоризации, причем ни масштаб, ни расширенное рассуждение не улучшают производительность. Мы обнаруживаем, что избирательный отказ является обучаемой способностью, чувствительной к согласованию, что открывает четкий путь для улучшения. Мы выпускаем два бенчмарка — RefusalBench-NQ (один документ) и RefusalBench-GaRAGe (несколько документов) — и нашу полную генеративную структуру для обеспечения непрерывной и динамичной оценки этой критической способности.
English
The ability of language models in RAG systems to selectively refuse to answer
based on flawed context is critical for safety, yet remains a significant
failure point. Our large-scale study reveals that even frontier models struggle
in this setting, with refusal accuracy dropping below 50% on multi-document
tasks, while exhibiting either dangerous overconfidence or overcaution. Static
benchmarks fail to reliably evaluate this capability, as models exploit
dataset-specific artifacts and memorize test instances. We introduce
RefusalBench, a generative methodology that programmatically creates diagnostic
test cases through controlled linguistic perturbation. Our framework employs
176 distinct perturbation strategies across six categories of informational
uncertainty and three intensity levels. Evaluation of over 30 models uncovers
systematic failure patterns: refusal comprises separable detection and
categorization skills, and neither scale nor extended reasoning improves
performance. We find that selective refusal is a trainable, alignment-sensitive
capability, offering a clear path for improvement. We release two benchmarks --
RefusalBench-NQ (single document) and RefusalBench-GaRAGe (multi-document) --
and our complete generation framework to enable continued, dynamic evaluation
of this critical capability.