D-REX: Ein Benchmark zur Erkennung trügerischer Argumentation in großen Sprachmodellen
D-REX: A Benchmark for Detecting Deceptive Reasoning in Large Language Models
September 22, 2025
papers.authors: Satyapriya Krishna, Andy Zou, Rahul Gupta, Eliot Krzysztof Jones, Nick Winter, Dan Hendrycks, J. Zico Kolter, Matt Fredrikson, Spyros Matsoukas
cs.AI
papers.abstract
Die Sicherheit und Ausrichtung von Large Language Models (LLMs) sind entscheidend für ihren verantwortungsvollen Einsatz. Aktuelle Evaluierungsmethoden konzentrieren sich hauptsächlich darauf, offensichtlich schädliche Ausgaben zu identifizieren und zu verhindern. Sie versagen jedoch oft darin, einen heimtückischeren Fehlermodus zu adressieren: Modelle, die scheinbar harmlose Ausgaben erzeugen, während sie auf bösartiger oder trügerischer interner Logik operieren. Diese Schwachstelle, die oft durch ausgeklügelte System-Prompt-Injektionen ausgelöst wird, ermöglicht es Modellen, konventionelle Sicherheitsfilter zu umgehen und stellt ein erhebliches, bisher unerforschtes Risiko dar. Um diese Lücke zu schließen, führen wir das Deceptive Reasoning Exposure Suite (D-REX) ein, einen neuartigen Datensatz, der entwickelt wurde, um die Diskrepanz zwischen dem internen Denkprozess eines Modells und seiner endgültigen Ausgabe zu bewerten. D-REX wurde durch eine wettbewerbsorientierte Red-Teaming-Übung erstellt, bei der Teilnehmer adversariale System-Prompts erstellten, um solche trügerischen Verhaltensweisen zu induzieren. Jede Probe in D-REX enthält den adversariellen System-Prompt, eine Testanfrage eines Endnutzers, die scheinbar harmlose Antwort des Modells und, entscheidend, die interne Gedankenkette des Modells, die die zugrunde liegende bösartige Absicht offenlegt. Unser Benchmark ermöglicht eine neue, essentielle Evaluierungsaufgabe: die Erkennung von trügerischer Ausrichtung. Wir zeigen, dass D-REX eine erhebliche Herausforderung für bestehende Modelle und Sicherheitsmechanismen darstellt und unterstreichen die dringende Notwendigkeit neuer Techniken, die die internen Prozesse von LLMs untersuchen, nicht nur ihre endgültigen Ausgaben.
English
The safety and alignment of Large Language Models (LLMs) are critical for
their responsible deployment. Current evaluation methods predominantly focus on
identifying and preventing overtly harmful outputs. However, they often fail to
address a more insidious failure mode: models that produce benign-appearing
outputs while operating on malicious or deceptive internal reasoning. This
vulnerability, often triggered by sophisticated system prompt injections,
allows models to bypass conventional safety filters, posing a significant,
underexplored risk. To address this gap, we introduce the Deceptive Reasoning
Exposure Suite (D-REX), a novel dataset designed to evaluate the discrepancy
between a model's internal reasoning process and its final output. D-REX was
constructed through a competitive red-teaming exercise where participants
crafted adversarial system prompts to induce such deceptive behaviors. Each
sample in D-REX contains the adversarial system prompt, an end-user's test
query, the model's seemingly innocuous response, and, crucially, the model's
internal chain-of-thought, which reveals the underlying malicious intent. Our
benchmark facilitates a new, essential evaluation task: the detection of
deceptive alignment. We demonstrate that D-REX presents a significant challenge
for existing models and safety mechanisms, highlighting the urgent need for new
techniques that scrutinize the internal processes of LLMs, not just their final
outputs.