連鎖は保たれ、答えは崩れる:敵対的圧力下における推論モデルのトレースと答えの解離
The Chain Holds, the Answer Folds: Trace-Answer Dissociation in Reasoning Models Under Adversarial Pressure
May 27, 2026
著者: Yubo Li, Ramayya Krishnan, Rema Padman
cs.AI
要旨
推論モデルは単一ターンのベンチマークで評価されるものの、実際には複数ターンの対話環境で展開され、ユーザーが正しい回答に対して反論を加えることがある。持続的な敵対的圧力下において、これまで文書化されていなかった障害モードを発見した。すなわち、思考連鎖は最初のターンから最後まで事実上正しいままであるにもかかわらず、出力される回答が誤ったものに反転する現象である。これを「不誠実な降伏(UC)」と称し、反転率指標や単一ターンの忠実性プローブのいずれも捉えられない2×2の潜在対行動フレームワークを用いて分離する。3つのデータセット(MT-Consistency、MMLU-Pro、GSM8K)において、行動反転時の潜在的正解率は思考モードで約50%に集中し、無思考モードでは11~15%に低下する。これはペア化されたモデル内因果的証拠により、推論がそのギャップを生み出していることを示している。モデル間では、この効果は推論チャネルに追跡可能であり(Qwen3-32BおよびGPT-OSS-20Bでは高く、インラインCoTのGemma-4-31B-itでは低い)。独立したGPT-4o判定器はUCラベルの86%を裏付けており、トークンレベルのプローブはUCセルの84%で回答スロットのargmaxが正しいことを示し、素朴なトレースアンカー防御は逆効果となる。すべての軌跡、トレース、判定器ラベルを公開する。
English
Reasoning models are evaluated on single-turn benchmarks but deployed in multi-turn dialogue, where users push back on correct answers. Under sustained adversarial pressure we find a previously undocumented failure mode: the chain-of-thought stays factually correct from first turn to last while the emitted answer flips wrong. We call this unfaithful capitulation (UC) and isolate it with a 2times 2 latent-versus-behavioral framework that flip-rate metrics and single-turn faithfulness probes both miss. Across three datasets (MT-Consistency, MMLU-Pro, GSM8K), the latent-correct rate at the behavioral flip clusters near 50% in think mode and collapses to 11-15% under no_think -- paired, within-model causal evidence that reasoning creates the gap. Across models the effect tracks the reasoning channel (high in Qwen3-32B and GPT-OSS-20B, low in inline-CoT Gemma-4-31B-it). An independent GPT-4o judge corroborates 86% of UC labels; a token-level probe shows the answer-slot argmax is correct in 84% of UC cells; and a naive trace-anchored defense backfires. We release all trajectories, traces, and judge labels.