D-REX: Een Benchmark voor het Detecteren van Misleidende Redeneringen in Grote Taalmodellen
D-REX: A Benchmark for Detecting Deceptive Reasoning in Large Language Models
September 22, 2025
Auteurs: Satyapriya Krishna, Andy Zou, Rahul Gupta, Eliot Krzysztof Jones, Nick Winter, Dan Hendrycks, J. Zico Kolter, Matt Fredrikson, Spyros Matsoukas
cs.AI
Samenvatting
De veiligheid en afstemming van Large Language Models (LLMs) zijn cruciaal voor hun verantwoorde inzet. Huidige evaluatiemethoden richten zich voornamelijk op het identificeren en voorkomen van duidelijk schadelijke uitkomsten. Echter, slagen ze er vaak niet in om een meer verraderlijke foutmodus aan te pakken: modellen die ogenschijnlijk onschuldige uitkomsten produceren terwijl ze werken op basis van kwaadaardige of misleidende interne redeneringen. Deze kwetsbaarheid, vaak veroorzaakt door geavanceerde systeemprompt-injecties, stelt modellen in staat om conventionele veiligheidsfilters te omzeilen, wat een significant, onderbelicht risico vormt. Om deze kloof te dichten, introduceren we de Deceptive Reasoning Exposure Suite (D-REX), een nieuwe dataset ontworpen om de discrepantie tussen het interne redeneringsproces van een model en zijn uiteindelijke uitkomst te evalueren. D-REX is samengesteld door middel van een competitieve red-teaming-oefening waarbij deelnemers adversariële systeemprompts creëerden om dergelijk misleidend gedrag te induceren. Elk voorbeeld in D-REX bevat de adversariële systeemprompt, een testvraag van een eindgebruiker, de ogenschijnlijk onschuldige reactie van het model en, cruciaal, de interne gedachtegang van het model, die de onderliggende kwaadaardige intentie onthult. Onze benchmark faciliteert een nieuwe, essentiële evaluatietaak: de detectie van misleidende afstemming. We tonen aan dat D-REX een aanzienlijke uitdaging vormt voor bestaande modellen en veiligheidsmechanismen, wat de dringende behoefte aan nieuwe technieken onderstreept die de interne processen van LLMs onderzoeken, niet alleen hun uiteindelijke uitkomsten.
English
The safety and alignment of Large Language Models (LLMs) are critical for
their responsible deployment. Current evaluation methods predominantly focus on
identifying and preventing overtly harmful outputs. However, they often fail to
address a more insidious failure mode: models that produce benign-appearing
outputs while operating on malicious or deceptive internal reasoning. This
vulnerability, often triggered by sophisticated system prompt injections,
allows models to bypass conventional safety filters, posing a significant,
underexplored risk. To address this gap, we introduce the Deceptive Reasoning
Exposure Suite (D-REX), a novel dataset designed to evaluate the discrepancy
between a model's internal reasoning process and its final output. D-REX was
constructed through a competitive red-teaming exercise where participants
crafted adversarial system prompts to induce such deceptive behaviors. Each
sample in D-REX contains the adversarial system prompt, an end-user's test
query, the model's seemingly innocuous response, and, crucially, the model's
internal chain-of-thought, which reveals the underlying malicious intent. Our
benchmark facilitates a new, essential evaluation task: the detection of
deceptive alignment. We demonstrate that D-REX presents a significant challenge
for existing models and safety mechanisms, highlighting the urgent need for new
techniques that scrutinize the internal processes of LLMs, not just their final
outputs.