大規模推論モデルに対するディストラクター注入攻撃:特性と防御
Distractor Injection Attacks on Large Reasoning Models: Characterization and Defense
October 17, 2025
著者: Zhehao Zhang, Weijie Xu, Shixian Cui, Chandan K. Reddy
cs.AI
要旨
大規模推論モデル(LRM)の最近の進展により、数学やコーディングなどの複雑なタスクにおいて、長い連鎖的思考(Chain-of-Thought, CoT)トレースを生成することで顕著な性能が実現されている。本論文では、プロンプトに悪意を持って埋め込まれた無関係ながら複雑なタスクによってLRMが本来の目的から逸脱する「推論分散」という重要な脆弱性を特定し、体系的に分析する。多様なモデルとベンチマークを用いた包括的な研究を通じて、最先端のLRMでさえこの脆弱性に非常に敏感であり、注入された分散要素によってタスクの精度が最大60%低下することを示す。さらに、特定のアライメント技術がこの弱点を増幅する可能性があり、モデルが隠れた敵対的指示に従いながら、最終出力ではそれを隠蔽する「隠れた従順性」を示すことを明らかにする。これらのリスクを軽減するため、合成敵対データを用いた教師付き微調整(Supervised Fine-Tuning, SFT)と強化学習(Reinforcement Learning, RL)を組み合わせたトレーニングベースの防御手法を提案し、困難な分散攻撃に対してロバスト性を50ポイント以上向上させる。我々の知見は、推論分散がLRMの信頼性に対する明確かつ緊急の脅威であることを確立し、より安全で信頼性の高い推論システムに向けた実践的な一歩を提供する。
English
Recent advances in large reasoning models (LRMs) have enabled remarkable
performance on complex tasks such as mathematics and coding by generating long
Chain-of-Thought (CoT) traces. In this paper, we identify and systematically
analyze a critical vulnerability we term reasoning distraction, where LRMs are
diverted from their primary objective by irrelevant yet complex tasks
maliciously embedded in the prompt. Through a comprehensive study across
diverse models and benchmarks, we show that even state-of-the-art LRMs are
highly susceptible, with injected distractors reducing task accuracy by up to
60%. We further reveal that certain alignment techniques can amplify this
weakness and that models may exhibit covert compliance, following hidden
adversarial instructions in reasoning while concealing them in the final
output. To mitigate these risks, we propose a training-based defense that
combines Supervised Fine-Tuning (SFT) and Reinforcement Learning (RL) on
synthetic adversarial data, improving robustness by over 50 points on
challenging distractor attacks. Our findings establish reasoning distraction as
a distinct and urgent threat to LRM reliability and provide a practical step
toward safer and more trustworthy reasoning systems.