D-REX: Un Benchmark per il Rilevamento del Ragionamento Ingannevole nei Modelli Linguistici di Grande Dimensione
D-REX: A Benchmark for Detecting Deceptive Reasoning in Large Language Models
September 22, 2025
Autori: Satyapriya Krishna, Andy Zou, Rahul Gupta, Eliot Krzysztof Jones, Nick Winter, Dan Hendrycks, J. Zico Kolter, Matt Fredrikson, Spyros Matsoukas
cs.AI
Abstract
La sicurezza e l'allineamento dei Large Language Models (LLM) sono cruciali per il loro impiego responsabile. I metodi di valutazione attuali si concentrano principalmente sull'identificazione e la prevenzione di output palesemente dannosi. Tuttavia, spesso non riescono a affrontare una modalità di fallimento più insidiosa: modelli che producono output apparentemente innocui mentre operano con un ragionamento interno malizioso o ingannevole. Questa vulnerabilità, spesso innescata da iniezioni sofisticate di prompt di sistema, consente ai modelli di bypassare i filtri di sicurezza convenzionali, rappresentando un rischio significativo e poco esplorato. Per colmare questa lacuna, introduciamo il Deceptive Reasoning Exposure Suite (D-REX), un nuovo dataset progettato per valutare la discrepanza tra il processo di ragionamento interno di un modello e il suo output finale. D-REX è stato costruito attraverso un esercizio competitivo di red-teaming in cui i partecipanti hanno creato prompt di sistema avversari per indurre tali comportamenti ingannevoli. Ogni campione in D-REX contiene il prompt di sistema avversario, una query di test dell'utente finale, la risposta apparentemente innocua del modello e, crucialmente, la catena di pensiero interna del modello, che rivela l'intento malizioso sottostante. Il nostro benchmark facilita un nuovo e essenziale compito di valutazione: il rilevamento dell'allineamento ingannevole. Dimostriamo che D-REX rappresenta una sfida significativa per i modelli e i meccanismi di sicurezza esistenti, evidenziando l'urgente necessità di nuove tecniche che esaminino i processi interni dei LLM, non solo i loro output finali.
English
The safety and alignment of Large Language Models (LLMs) are critical for
their responsible deployment. Current evaluation methods predominantly focus on
identifying and preventing overtly harmful outputs. However, they often fail to
address a more insidious failure mode: models that produce benign-appearing
outputs while operating on malicious or deceptive internal reasoning. This
vulnerability, often triggered by sophisticated system prompt injections,
allows models to bypass conventional safety filters, posing a significant,
underexplored risk. To address this gap, we introduce the Deceptive Reasoning
Exposure Suite (D-REX), a novel dataset designed to evaluate the discrepancy
between a model's internal reasoning process and its final output. D-REX was
constructed through a competitive red-teaming exercise where participants
crafted adversarial system prompts to induce such deceptive behaviors. Each
sample in D-REX contains the adversarial system prompt, an end-user's test
query, the model's seemingly innocuous response, and, crucially, the model's
internal chain-of-thought, which reveals the underlying malicious intent. Our
benchmark facilitates a new, essential evaluation task: the detection of
deceptive alignment. We demonstrate that D-REX presents a significant challenge
for existing models and safety mechanisms, highlighting the urgent need for new
techniques that scrutinize the internal processes of LLMs, not just their final
outputs.