ChatPaper.aiChatPaper

D-REX: 대규모 언어 모델의 기만적 추론 탐지를 위한 벤치마크

D-REX: A Benchmark for Detecting Deceptive Reasoning in Large Language Models

September 22, 2025
저자: Satyapriya Krishna, Andy Zou, Rahul Gupta, Eliot Krzysztof Jones, Nick Winter, Dan Hendrycks, J. Zico Kolter, Matt Fredrikson, Spyros Matsoukas
cs.AI

초록

대형 언어 모델(LLMs)의 안전성과 정렬은 그들의 책임 있는 배포에 있어 매우 중요하다. 현재의 평가 방법은 주로 노골적으로 유해한 출력을 식별하고 방지하는 데 초점을 맞추고 있다. 그러나 이러한 방법들은 종종 더 교묘한 실패 모드, 즉 악의적이거나 기만적인 내부 추론을 수행하면서도 겉보기에는 무해한 출력을 생성하는 모델들을 다루지 못한다. 이러한 취약점은 정교한 시스템 프롬프트 주입에 의해 종종 유발되며, 이는 모델이 기존의 안전 필터를 우회할 수 있게 하여 상당히 탐구되지 않은 위험을 초래한다. 이러한 격차를 해결하기 위해, 우리는 모델의 내부 추론 과정과 최종 출력 간의 불일치를 평가하기 위해 설계된 새로운 데이터셋인 기만적 추론 노출 스위트(D-REX)를 소개한다. D-REX는 참가자들이 이러한 기만적 행동을 유도하기 위해 적대적 시스템 프롬프트를 제작한 경쟁적인 레드 팀 연습을 통해 구축되었다. D-REX의 각 샘플은 적대적 시스템 프롬프트, 최종 사용자의 테스트 쿼리, 모델의 겉보기에는 무해한 응답, 그리고 결정적으로 모델의 내부 사고 사슬을 포함하며, 이는 내재된 악의적 의도를 드러낸다. 우리의 벤치마크는 기만적 정렬 탐지라는 새로운 필수 평가 과제를 가능하게 한다. 우리는 D-REX가 기존 모델과 안전 메커니즘에 상당한 도전을 제시하며, LLMs의 최종 출력뿐만 아니라 그들의 내부 과정을 면밀히 검토하는 새로운 기술의 필요성을 강조한다는 것을 보여준다.
English
The safety and alignment of Large Language Models (LLMs) are critical for their responsible deployment. Current evaluation methods predominantly focus on identifying and preventing overtly harmful outputs. However, they often fail to address a more insidious failure mode: models that produce benign-appearing outputs while operating on malicious or deceptive internal reasoning. This vulnerability, often triggered by sophisticated system prompt injections, allows models to bypass conventional safety filters, posing a significant, underexplored risk. To address this gap, we introduce the Deceptive Reasoning Exposure Suite (D-REX), a novel dataset designed to evaluate the discrepancy between a model's internal reasoning process and its final output. D-REX was constructed through a competitive red-teaming exercise where participants crafted adversarial system prompts to induce such deceptive behaviors. Each sample in D-REX contains the adversarial system prompt, an end-user's test query, the model's seemingly innocuous response, and, crucially, the model's internal chain-of-thought, which reveals the underlying malicious intent. Our benchmark facilitates a new, essential evaluation task: the detection of deceptive alignment. We demonstrate that D-REX presents a significant challenge for existing models and safety mechanisms, highlighting the urgent need for new techniques that scrutinize the internal processes of LLMs, not just their final outputs.
PDF32September 23, 2025