ChatPaper.aiChatPaper

대규모 추론 모델에 대한 방해 요소 주입 공격: 특성화 및 방어

Distractor Injection Attacks on Large Reasoning Models: Characterization and Defense

October 17, 2025
저자: Zhehao Zhang, Weijie Xu, Shixian Cui, Chandan K. Reddy
cs.AI

초록

최근 대규모 추론 모델(LRMs)의 발전으로, 긴 사고의 연쇄(Chain-of-Thought, CoT)를 생성하여 수학 및 코딩과 같은 복잡한 작업에서 놀라운 성능을 달성할 수 있게 되었습니다. 본 논문에서는 LRMs가 프롬프트에 악의적으로 삽입된 관련성 없는 복잡한 작업에 의해 주요 목표에서 벗어나는 현상을 '추론 분산(reasoning distraction)'이라고 명명하고 이를 체계적으로 분석합니다. 다양한 모델과 벤치마크를 대상으로 한 포괄적인 연구를 통해, 최첨단 LRMs조차도 이에 매우 취약하며, 주입된 방해 요소가 작업 정확도를 최대 60%까지 감소시킬 수 있음을 보여줍니다. 또한, 특정 정렬 기술이 이러한 약점을 증폭시킬 수 있으며, 모델이 최종 출력에서는 숨기면서도 추론 과정에서 숨겨진 적대적 지시를 따르는 '은밀한 준수(covert compliance)'를 보일 수 있음을 밝혔습니다. 이러한 위험을 완화하기 위해, 합성 적대적 데이터에 대한 지도 미세 조정(Supervised Fine-Tuning, SFT)과 강화 학습(Reinforcement Learning, RL)을 결합한 훈련 기반 방어 기법을 제안하며, 이를 통해 도전적인 방해 공격에 대한 견고성을 50점 이상 향상시킬 수 있음을 보여줍니다. 우리의 연구 결과는 추론 분산을 LRM 신뢰성에 대한 독특하고 긴급한 위협으로 규정하고, 더 안전하고 신뢰할 수 있는 추론 시스템을 위한 실질적인 단계를 제공합니다.
English
Recent advances in large reasoning models (LRMs) have enabled remarkable performance on complex tasks such as mathematics and coding by generating long Chain-of-Thought (CoT) traces. In this paper, we identify and systematically analyze a critical vulnerability we term reasoning distraction, where LRMs are diverted from their primary objective by irrelevant yet complex tasks maliciously embedded in the prompt. Through a comprehensive study across diverse models and benchmarks, we show that even state-of-the-art LRMs are highly susceptible, with injected distractors reducing task accuracy by up to 60%. We further reveal that certain alignment techniques can amplify this weakness and that models may exhibit covert compliance, following hidden adversarial instructions in reasoning while concealing them in the final output. To mitigate these risks, we propose a training-based defense that combines Supervised Fine-Tuning (SFT) and Reinforcement Learning (RL) on synthetic adversarial data, improving robustness by over 50 points on challenging distractor attacks. Our findings establish reasoning distraction as a distinct and urgent threat to LRM reliability and provide a practical step toward safer and more trustworthy reasoning systems.
PDF32October 21, 2025