D-REX: Um Benchmark para Detecção de Raciocínio Enganoso em Modelos de Linguagem de Grande Escala

Resumo

A segurança e o alinhamento dos Modelos de Linguagem de Grande Escala (LLMs) são fundamentais para sua implantação responsável. Os métodos de avaliação atuais concentram-se principalmente na identificação e prevenção de saídas claramente prejudiciais. No entanto, eles frequentemente falham em abordar um modo de falha mais insidioso: modelos que produzem saídas aparentemente benignas enquanto operam com raciocínios internos maliciosos ou enganosos. Essa vulnerabilidade, muitas vezes desencadeada por injeções sofisticadas de prompts de sistema, permite que os modelos contornem os filtros de segurança convencionais, representando um risco significativo e pouco explorado. Para abordar essa lacuna, apresentamos o Deceptive Reasoning Exposure Suite (D-REX), um novo conjunto de dados projetado para avaliar a discrepância entre o processo de raciocínio interno de um modelo e sua saída final. O D-REX foi construído por meio de um exercício competitivo de red teaming, onde os participantes criaram prompts de sistema adversariais para induzir tais comportamentos enganosos. Cada amostra no D-REX contém o prompt de sistema adversarial, uma consulta de teste do usuário final, a resposta aparentemente inócua do modelo e, crucialmente, a cadeia de pensamento interna do modelo, que revela a intenção maliciosa subjacente. Nosso benchmark facilita uma nova e essencial tarefa de avaliação: a detecção de alinhamento enganoso. Demonstramos que o D-REX apresenta um desafio significativo para os modelos e mecanismos de segurança existentes, destacando a necessidade urgente de novas técnicas que examinem os processos internos dos LLMs, não apenas suas saídas finais.

English

The safety and alignment of Large Language Models (LLMs) are critical for their responsible deployment. Current evaluation methods predominantly focus on identifying and preventing overtly harmful outputs. However, they often fail to address a more insidious failure mode: models that produce benign-appearing outputs while operating on malicious or deceptive internal reasoning. This vulnerability, often triggered by sophisticated system prompt injections, allows models to bypass conventional safety filters, posing a significant, underexplored risk. To address this gap, we introduce the Deceptive Reasoning Exposure Suite (D-REX), a novel dataset designed to evaluate the discrepancy between a model's internal reasoning process and its final output. D-REX was constructed through a competitive red-teaming exercise where participants crafted adversarial system prompts to induce such deceptive behaviors. Each sample in D-REX contains the adversarial system prompt, an end-user's test query, the model's seemingly innocuous response, and, crucially, the model's internal chain-of-thought, which reveals the underlying malicious intent. Our benchmark facilitates a new, essential evaluation task: the detection of deceptive alignment. We demonstrate that D-REX presents a significant challenge for existing models and safety mechanisms, highlighting the urgent need for new techniques that scrutinize the internal processes of LLMs, not just their final outputs.

D-REX: Um Benchmark para Detecção de Raciocínio Enganoso em Modelos de Linguagem de Grande Escala

D-REX: A Benchmark for Detecting Deceptive Reasoning in Large Language Models

Resumo

Support