ChatPaper.aiChatPaper

RefusalBench: Avaliação Generativa de Recusa Seletiva em Modelos de Linguagem Fundamentados

RefusalBench: Generative Evaluation of Selective Refusal in Grounded Language Models

October 12, 2025
Autores: Aashiq Muhamed, Leonardo F. R. Ribeiro, Markus Dreyer, Virginia Smith, Mona T. Diab
cs.AI

Resumo

A capacidade dos modelos de linguagem em sistemas RAG de se recusar seletivamente a responder com base em contextos falhos é crucial para a segurança, mas ainda representa um ponto de falha significativo. Nosso estudo em larga escala revela que até mesmo modelos de ponta enfrentam dificuldades nesse cenário, com a precisão de recusa caindo abaixo de 50% em tarefas de múltiplos documentos, enquanto exibem confiança excessivamente perigosa ou cautela exagerada. Benchmarks estáticos falham em avaliar de forma confiável essa capacidade, pois os modelos exploram artefatos específicos de conjuntos de dados e memorizam instâncias de teste. Introduzimos o RefusalBench, uma metodologia generativa que cria programaticamente casos de teste diagnósticos por meio de perturbações linguísticas controladas. Nosso framework emprega 176 estratégias distintas de perturbação em seis categorias de incerteza informacional e três níveis de intensidade. A avaliação de mais de 30 modelos revela padrões sistemáticos de falha: a recusa compreende habilidades separáveis de detecção e categorização, e nem a escala nem o raciocínio estendido melhoram o desempenho. Descobrimos que a recusa seletiva é uma capacidade treinável e sensível ao alinhamento, oferecendo um caminho claro para aprimoramento. Lançamos dois benchmarks — RefusalBench-NQ (documento único) e RefusalBench-GaRAGe (múltiplos documentos) — e nosso framework completo de geração para permitir a avaliação contínua e dinâmica dessa capacidade crítica.
English
The ability of language models in RAG systems to selectively refuse to answer based on flawed context is critical for safety, yet remains a significant failure point. Our large-scale study reveals that even frontier models struggle in this setting, with refusal accuracy dropping below 50% on multi-document tasks, while exhibiting either dangerous overconfidence or overcaution. Static benchmarks fail to reliably evaluate this capability, as models exploit dataset-specific artifacts and memorize test instances. We introduce RefusalBench, a generative methodology that programmatically creates diagnostic test cases through controlled linguistic perturbation. Our framework employs 176 distinct perturbation strategies across six categories of informational uncertainty and three intensity levels. Evaluation of over 30 models uncovers systematic failure patterns: refusal comprises separable detection and categorization skills, and neither scale nor extended reasoning improves performance. We find that selective refusal is a trainable, alignment-sensitive capability, offering a clear path for improvement. We release two benchmarks -- RefusalBench-NQ (single document) and RefusalBench-GaRAGe (multi-document) -- and our complete generation framework to enable continued, dynamic evaluation of this critical capability.
PDF32December 21, 2025