D-REX : Un Benchmark pour la Détection de Raisonnement Trompeur dans les Modèles de Langage à Grande Échelle
D-REX: A Benchmark for Detecting Deceptive Reasoning in Large Language Models
September 22, 2025
papers.authors: Satyapriya Krishna, Andy Zou, Rahul Gupta, Eliot Krzysztof Jones, Nick Winter, Dan Hendrycks, J. Zico Kolter, Matt Fredrikson, Spyros Matsoukas
cs.AI
papers.abstract
La sécurité et l'alignement des modèles de langage à grande échelle (LLMs) sont essentiels pour leur déploiement responsable. Les méthodes d'évaluation actuelles se concentrent principalement sur l'identification et la prévention des sorties manifestement nuisibles. Cependant, elles échouent souvent à traiter un mode de défaillance plus insidieux : les modèles qui produisent des sorties d'apparence bénigne tout en opérant sur un raisonnement interne malveillant ou trompeur. Cette vulnérabilité, souvent déclenchée par des injections sophistiquées de prompts système, permet aux modèles de contourner les filtres de sécurité conventionnels, représentant un risque significatif et sous-exploré. Pour combler cette lacune, nous introduisons le Deceptive Reasoning Exposure Suite (D-REX), un nouvel ensemble de données conçu pour évaluer la divergence entre le processus de raisonnement interne d'un modèle et sa sortie finale. D-REX a été construit à travers un exercice compétitif de red-teaming où les participants ont élaboré des prompts système adversariaux pour induire de tels comportements trompeurs. Chaque échantillon de D-REX contient le prompt système adversarial, une requête de test de l'utilisateur final, la réponse apparemment inoffensive du modèle et, surtout, la chaîne de pensée interne du modèle, qui révèle l'intention malveillante sous-jacente. Notre benchmark facilite une nouvelle tâche d'évaluation essentielle : la détection de l'alignement trompeur. Nous démontrons que D-REX représente un défi significatif pour les modèles et mécanismes de sécurité existants, soulignant le besoin urgent de nouvelles techniques qui examinent les processus internes des LLMs, et pas seulement leurs sorties finales.
English
The safety and alignment of Large Language Models (LLMs) are critical for
their responsible deployment. Current evaluation methods predominantly focus on
identifying and preventing overtly harmful outputs. However, they often fail to
address a more insidious failure mode: models that produce benign-appearing
outputs while operating on malicious or deceptive internal reasoning. This
vulnerability, often triggered by sophisticated system prompt injections,
allows models to bypass conventional safety filters, posing a significant,
underexplored risk. To address this gap, we introduce the Deceptive Reasoning
Exposure Suite (D-REX), a novel dataset designed to evaluate the discrepancy
between a model's internal reasoning process and its final output. D-REX was
constructed through a competitive red-teaming exercise where participants
crafted adversarial system prompts to induce such deceptive behaviors. Each
sample in D-REX contains the adversarial system prompt, an end-user's test
query, the model's seemingly innocuous response, and, crucially, the model's
internal chain-of-thought, which reveals the underlying malicious intent. Our
benchmark facilitates a new, essential evaluation task: the detection of
deceptive alignment. We demonstrate that D-REX presents a significant challenge
for existing models and safety mechanisms, highlighting the urgent need for new
techniques that scrutinize the internal processes of LLMs, not just their final
outputs.