D-REX: Um Benchmark para Detecção de Raciocínio Enganoso em Modelos de Linguagem de Grande Escala
D-REX: A Benchmark for Detecting Deceptive Reasoning in Large Language Models
September 22, 2025
Autores: Satyapriya Krishna, Andy Zou, Rahul Gupta, Eliot Krzysztof Jones, Nick Winter, Dan Hendrycks, J. Zico Kolter, Matt Fredrikson, Spyros Matsoukas
cs.AI
Resumo
A segurança e o alinhamento dos Modelos de Linguagem de Grande Escala (LLMs) são fundamentais para sua implantação responsável. Os métodos de avaliação atuais concentram-se principalmente na identificação e prevenção de saídas claramente prejudiciais. No entanto, eles frequentemente falham em abordar um modo de falha mais insidioso: modelos que produzem saídas aparentemente benignas enquanto operam com raciocínios internos maliciosos ou enganosos. Essa vulnerabilidade, muitas vezes desencadeada por injeções sofisticadas de prompts de sistema, permite que os modelos contornem os filtros de segurança convencionais, representando um risco significativo e pouco explorado. Para abordar essa lacuna, apresentamos o Deceptive Reasoning Exposure Suite (D-REX), um novo conjunto de dados projetado para avaliar a discrepância entre o processo de raciocínio interno de um modelo e sua saída final. O D-REX foi construído por meio de um exercício competitivo de red teaming, onde os participantes criaram prompts de sistema adversariais para induzir tais comportamentos enganosos. Cada amostra no D-REX contém o prompt de sistema adversarial, uma consulta de teste do usuário final, a resposta aparentemente inócua do modelo e, crucialmente, a cadeia de pensamento interna do modelo, que revela a intenção maliciosa subjacente. Nosso benchmark facilita uma nova e essencial tarefa de avaliação: a detecção de alinhamento enganoso. Demonstramos que o D-REX apresenta um desafio significativo para os modelos e mecanismos de segurança existentes, destacando a necessidade urgente de novas técnicas que examinem os processos internos dos LLMs, não apenas suas saídas finais.
English
The safety and alignment of Large Language Models (LLMs) are critical for
their responsible deployment. Current evaluation methods predominantly focus on
identifying and preventing overtly harmful outputs. However, they often fail to
address a more insidious failure mode: models that produce benign-appearing
outputs while operating on malicious or deceptive internal reasoning. This
vulnerability, often triggered by sophisticated system prompt injections,
allows models to bypass conventional safety filters, posing a significant,
underexplored risk. To address this gap, we introduce the Deceptive Reasoning
Exposure Suite (D-REX), a novel dataset designed to evaluate the discrepancy
between a model's internal reasoning process and its final output. D-REX was
constructed through a competitive red-teaming exercise where participants
crafted adversarial system prompts to induce such deceptive behaviors. Each
sample in D-REX contains the adversarial system prompt, an end-user's test
query, the model's seemingly innocuous response, and, crucially, the model's
internal chain-of-thought, which reveals the underlying malicious intent. Our
benchmark facilitates a new, essential evaluation task: the detection of
deceptive alignment. We demonstrate that D-REX presents a significant challenge
for existing models and safety mechanisms, highlighting the urgent need for new
techniques that scrutinize the internal processes of LLMs, not just their final
outputs.