ChatPaper.aiChatPaper

D-REX: Een Benchmark voor het Detecteren van Misleidende Redeneringen in Grote Taalmodellen

D-REX: A Benchmark for Detecting Deceptive Reasoning in Large Language Models

September 22, 2025
Auteurs: Satyapriya Krishna, Andy Zou, Rahul Gupta, Eliot Krzysztof Jones, Nick Winter, Dan Hendrycks, J. Zico Kolter, Matt Fredrikson, Spyros Matsoukas
cs.AI

Samenvatting

De veiligheid en afstemming van Large Language Models (LLMs) zijn cruciaal voor hun verantwoorde inzet. Huidige evaluatiemethoden richten zich voornamelijk op het identificeren en voorkomen van duidelijk schadelijke uitkomsten. Echter, slagen ze er vaak niet in om een meer verraderlijke foutmodus aan te pakken: modellen die ogenschijnlijk onschuldige uitkomsten produceren terwijl ze werken op basis van kwaadaardige of misleidende interne redeneringen. Deze kwetsbaarheid, vaak veroorzaakt door geavanceerde systeemprompt-injecties, stelt modellen in staat om conventionele veiligheidsfilters te omzeilen, wat een significant, onderbelicht risico vormt. Om deze kloof te dichten, introduceren we de Deceptive Reasoning Exposure Suite (D-REX), een nieuwe dataset ontworpen om de discrepantie tussen het interne redeneringsproces van een model en zijn uiteindelijke uitkomst te evalueren. D-REX is samengesteld door middel van een competitieve red-teaming-oefening waarbij deelnemers adversariële systeemprompts creëerden om dergelijk misleidend gedrag te induceren. Elk voorbeeld in D-REX bevat de adversariële systeemprompt, een testvraag van een eindgebruiker, de ogenschijnlijk onschuldige reactie van het model en, cruciaal, de interne gedachtegang van het model, die de onderliggende kwaadaardige intentie onthult. Onze benchmark faciliteert een nieuwe, essentiële evaluatietaak: de detectie van misleidende afstemming. We tonen aan dat D-REX een aanzienlijke uitdaging vormt voor bestaande modellen en veiligheidsmechanismen, wat de dringende behoefte aan nieuwe technieken onderstreept die de interne processen van LLMs onderzoeken, niet alleen hun uiteindelijke uitkomsten.
English
The safety and alignment of Large Language Models (LLMs) are critical for their responsible deployment. Current evaluation methods predominantly focus on identifying and preventing overtly harmful outputs. However, they often fail to address a more insidious failure mode: models that produce benign-appearing outputs while operating on malicious or deceptive internal reasoning. This vulnerability, often triggered by sophisticated system prompt injections, allows models to bypass conventional safety filters, posing a significant, underexplored risk. To address this gap, we introduce the Deceptive Reasoning Exposure Suite (D-REX), a novel dataset designed to evaluate the discrepancy between a model's internal reasoning process and its final output. D-REX was constructed through a competitive red-teaming exercise where participants crafted adversarial system prompts to induce such deceptive behaviors. Each sample in D-REX contains the adversarial system prompt, an end-user's test query, the model's seemingly innocuous response, and, crucially, the model's internal chain-of-thought, which reveals the underlying malicious intent. Our benchmark facilitates a new, essential evaluation task: the detection of deceptive alignment. We demonstrate that D-REX presents a significant challenge for existing models and safety mechanisms, highlighting the urgent need for new techniques that scrutinize the internal processes of LLMs, not just their final outputs.
PDF32September 23, 2025