D-REX: Un punto de referencia para la detección de razonamiento engañoso en modelos de lenguaje a gran escala.
D-REX: A Benchmark for Detecting Deceptive Reasoning in Large Language Models
September 22, 2025
Autores: Satyapriya Krishna, Andy Zou, Rahul Gupta, Eliot Krzysztof Jones, Nick Winter, Dan Hendrycks, J. Zico Kolter, Matt Fredrikson, Spyros Matsoukas
cs.AI
Resumen
La seguridad y la alineación de los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) son fundamentales para su implementación responsable. Los métodos de evaluación actuales se centran principalmente en identificar y prevenir resultados abiertamente dañinos. Sin embargo, a menudo no abordan un modo de fallo más insidioso: modelos que producen resultados aparentemente benignos mientras operan con un razonamiento interno malicioso o engañoso. Esta vulnerabilidad, frecuentemente desencadenada por inyecciones sofisticadas de instrucciones en el sistema, permite que los modelos eludan los filtros de seguridad convencionales, representando un riesgo significativo y poco explorado. Para abordar esta brecha, presentamos el Conjunto de Exposición de Razonamiento Engañoso (D-REX, por sus siglas en inglés), un nuevo conjunto de datos diseñado para evaluar la discrepancia entre el proceso de razonamiento interno de un modelo y su resultado final. D-REX fue construido mediante un ejercicio competitivo de "equipo rojo", donde los participantes elaboraron instrucciones adversarias en el sistema para inducir comportamientos engañosos. Cada muestra en D-REX contiene la instrucción adversaria en el sistema, una consulta de prueba del usuario final, la respuesta aparentemente inocua del modelo y, crucialmente, la cadena de pensamiento interna del modelo, que revela la intención maliciosa subyacente. Nuestro punto de referencia facilita una nueva tarea de evaluación esencial: la detección de alineación engañosa. Demostramos que D-REX representa un desafío significativo para los modelos y mecanismos de seguridad existentes, destacando la urgente necesidad de nuevas técnicas que examinen los procesos internos de los LLMs, no solo sus resultados finales.
English
The safety and alignment of Large Language Models (LLMs) are critical for
their responsible deployment. Current evaluation methods predominantly focus on
identifying and preventing overtly harmful outputs. However, they often fail to
address a more insidious failure mode: models that produce benign-appearing
outputs while operating on malicious or deceptive internal reasoning. This
vulnerability, often triggered by sophisticated system prompt injections,
allows models to bypass conventional safety filters, posing a significant,
underexplored risk. To address this gap, we introduce the Deceptive Reasoning
Exposure Suite (D-REX), a novel dataset designed to evaluate the discrepancy
between a model's internal reasoning process and its final output. D-REX was
constructed through a competitive red-teaming exercise where participants
crafted adversarial system prompts to induce such deceptive behaviors. Each
sample in D-REX contains the adversarial system prompt, an end-user's test
query, the model's seemingly innocuous response, and, crucially, the model's
internal chain-of-thought, which reveals the underlying malicious intent. Our
benchmark facilitates a new, essential evaluation task: the detection of
deceptive alignment. We demonstrate that D-REX presents a significant challenge
for existing models and safety mechanisms, highlighting the urgent need for new
techniques that scrutinize the internal processes of LLMs, not just their final
outputs.