ChatPaper.aiChatPaper

RefusalBench: Evaluación Generativa del Rechazo Selectivo en Modelos de Lenguaje Fundamentados

RefusalBench: Generative Evaluation of Selective Refusal in Grounded Language Models

October 12, 2025
Autores: Aashiq Muhamed, Leonardo F. R. Ribeiro, Markus Dreyer, Virginia Smith, Mona T. Diab
cs.AI

Resumen

La capacidad de los modelos de lenguaje en los sistemas RAG para rechazar selectivamente responder basándose en un contexto defectuoso es crucial para la seguridad, pero sigue siendo un punto de fallo significativo. Nuestro estudio a gran escala revela que incluso los modelos más avanzados tienen dificultades en este escenario, con una precisión de rechazo que cae por debajo del 50% en tareas de múltiples documentos, mientras exhiben una peligrosa sobreconfianza o excesiva precaución. Los puntos de referencia estáticos no logran evaluar de manera confiable esta capacidad, ya que los modelos explican artefactos específicos del conjunto de datos y memorizan instancias de prueba. Introducimos RefusalBench, una metodología generativa que crea programáticamente casos de prueba diagnósticos mediante perturbaciones lingüísticas controladas. Nuestro marco emplea 176 estrategias de perturbación distintas en seis categorías de incertidumbre informativa y tres niveles de intensidad. La evaluación de más de 30 modelos revela patrones sistemáticos de fallo: el rechazo comprende habilidades separables de detección y categorización, y ni la escala ni el razonamiento extendido mejoran el rendimiento. Descubrimos que el rechazo selectivo es una capacidad entrenable y sensible a la alineación, ofreciendo un camino claro para la mejora. Publicamos dos puntos de referencia —RefusalBench-NQ (documento único) y RefusalBench-GaRAGe (múltiples documentos)— y nuestro marco de generación completo para permitir una evaluación continua y dinámica de esta capacidad crítica.
English
The ability of language models in RAG systems to selectively refuse to answer based on flawed context is critical for safety, yet remains a significant failure point. Our large-scale study reveals that even frontier models struggle in this setting, with refusal accuracy dropping below 50% on multi-document tasks, while exhibiting either dangerous overconfidence or overcaution. Static benchmarks fail to reliably evaluate this capability, as models exploit dataset-specific artifacts and memorize test instances. We introduce RefusalBench, a generative methodology that programmatically creates diagnostic test cases through controlled linguistic perturbation. Our framework employs 176 distinct perturbation strategies across six categories of informational uncertainty and three intensity levels. Evaluation of over 30 models uncovers systematic failure patterns: refusal comprises separable detection and categorization skills, and neither scale nor extended reasoning improves performance. We find that selective refusal is a trainable, alignment-sensitive capability, offering a clear path for improvement. We release two benchmarks -- RefusalBench-NQ (single document) and RefusalBench-GaRAGe (multi-document) -- and our complete generation framework to enable continued, dynamic evaluation of this critical capability.
PDF12October 17, 2025