D-REX: Бенчмарк для выявления обманчивых рассуждений в больших языковых моделях
D-REX: A Benchmark for Detecting Deceptive Reasoning in Large Language Models
September 22, 2025
Авторы: Satyapriya Krishna, Andy Zou, Rahul Gupta, Eliot Krzysztof Jones, Nick Winter, Dan Hendrycks, J. Zico Kolter, Matt Fredrikson, Spyros Matsoukas
cs.AI
Аннотация
Безопасность и согласованность крупных языковых моделей (LLM) имеют критическое значение для их ответственного внедрения. Современные методы оценки в основном сосредоточены на выявлении и предотвращении явно вредоносных выводов. Однако они часто не учитывают более коварный режим сбоя: модели, которые производят внешне безобидные выводы, но при этом используют вредоносные или обманчивые внутренние рассуждения. Эта уязвимость, часто вызванная сложными инъекциями системных промптов, позволяет моделям обходить традиционные фильтры безопасности, представляя собой значительный и недостаточно изученный риск. Для устранения этого пробела мы представляем набор данных Deceptive Reasoning Exposure Suite (D-REX), предназначенный для оценки расхождения между внутренним процессом рассуждения модели и её конечным выводом. D-REX был создан в ходе конкурсного упражнения по "красному командованию", где участники разрабатывали враждебные системные промпты для провоцирования подобных обманчивых поведений. Каждый образец в D-REX содержит враждебный системный промпт, тестовый запрос конечного пользователя, внешне безобидный ответ модели и, что наиболее важно, внутреннюю цепочку рассуждений модели, которая раскрывает скрытые вредоносные намерения. Наш бенчмарк способствует новой, важной задаче оценки: обнаружению обманчивой согласованности. Мы демонстрируем, что D-REX представляет собой значительный вызов для существующих моделей и механизмов безопасности, подчеркивая острую необходимость в новых методах, которые анализируют внутренние процессы LLM, а не только их конечные выводы.
English
The safety and alignment of Large Language Models (LLMs) are critical for
their responsible deployment. Current evaluation methods predominantly focus on
identifying and preventing overtly harmful outputs. However, they often fail to
address a more insidious failure mode: models that produce benign-appearing
outputs while operating on malicious or deceptive internal reasoning. This
vulnerability, often triggered by sophisticated system prompt injections,
allows models to bypass conventional safety filters, posing a significant,
underexplored risk. To address this gap, we introduce the Deceptive Reasoning
Exposure Suite (D-REX), a novel dataset designed to evaluate the discrepancy
between a model's internal reasoning process and its final output. D-REX was
constructed through a competitive red-teaming exercise where participants
crafted adversarial system prompts to induce such deceptive behaviors. Each
sample in D-REX contains the adversarial system prompt, an end-user's test
query, the model's seemingly innocuous response, and, crucially, the model's
internal chain-of-thought, which reveals the underlying malicious intent. Our
benchmark facilitates a new, essential evaluation task: the detection of
deceptive alignment. We demonstrate that D-REX presents a significant challenge
for existing models and safety mechanisms, highlighting the urgent need for new
techniques that scrutinize the internal processes of LLMs, not just their final
outputs.