ChatPaper.aiChatPaper

RefusalBench: 接地された言語モデルにおける選択的拒否の生成的評価

RefusalBench: Generative Evaluation of Selective Refusal in Grounded Language Models

October 12, 2025
著者: Aashiq Muhamed, Leonardo F. R. Ribeiro, Markus Dreyer, Virginia Smith, Mona T. Diab
cs.AI

要旨

RAGシステムにおける言語モデルの能力の一つである、欠陥のある文脈に基づいて選択的に回答を拒否する能力は、安全性の観点から極めて重要であるが、依然として重大な失敗ポイントとなっている。我々の大規模な研究により、最先端のモデルでさえこの設定において苦戦し、複数文書タスクでの拒否精度が50%を下回り、危険な過信または過度の慎重さを示すことが明らかになった。静的ベンチマークはこの能力を確実に評価することができず、モデルはデータセット固有のアーティファクトを利用し、テストインスタンスを記憶してしまう。我々はRefusalBenchを導入し、制御された言語的摂動を通じてプログラム的に診断テストケースを作成する生成手法を提案する。このフレームワークは、情報の不確実性の6つのカテゴリーと3つの強度レベルにわたる176の異なる摂動戦略を採用している。30以上のモデルの評価により、体系的な失敗パターンが明らかになった:拒否は検出と分類の分離可能なスキルで構成されており、スケールや拡張推論も性能を向上させない。選択的拒否は訓練可能でアライメントに敏感な能力であり、改善の明確な道筋を提供する。我々は、この重要な能力の継続的で動的な評価を可能にするため、2つのベンチマーク――RefusalBench-NQ(単一文書)とRefusalBench-GaRAGe(複数文書)――および完全な生成フレームワークを公開する。
English
The ability of language models in RAG systems to selectively refuse to answer based on flawed context is critical for safety, yet remains a significant failure point. Our large-scale study reveals that even frontier models struggle in this setting, with refusal accuracy dropping below 50% on multi-document tasks, while exhibiting either dangerous overconfidence or overcaution. Static benchmarks fail to reliably evaluate this capability, as models exploit dataset-specific artifacts and memorize test instances. We introduce RefusalBench, a generative methodology that programmatically creates diagnostic test cases through controlled linguistic perturbation. Our framework employs 176 distinct perturbation strategies across six categories of informational uncertainty and three intensity levels. Evaluation of over 30 models uncovers systematic failure patterns: refusal comprises separable detection and categorization skills, and neither scale nor extended reasoning improves performance. We find that selective refusal is a trainable, alignment-sensitive capability, offering a clear path for improvement. We release two benchmarks -- RefusalBench-NQ (single document) and RefusalBench-GaRAGe (multi-document) -- and our complete generation framework to enable continued, dynamic evaluation of this critical capability.
PDF12October 17, 2025