ChatPaper.aiChatPaper

Цепь держится, ответ разрушается: диссоциация трассы и ответа в моделях рассуждений под состязательным давлением

The Chain Holds, the Answer Folds: Trace-Answer Dissociation in Reasoning Models Under Adversarial Pressure

May 27, 2026
Авторы: Yubo Li, Ramayya Krishnan, Rema Padman
cs.AI

Аннотация

Модели рассуждения оцениваются на одношаговых эталонах, но применяются в многошаговом диалоге, где пользователи оспаривают правильные ответы. При устойчивом неблагоприятном давлении мы обнаруживаем ранее не задокументированный режим отказа: цепочка мыслей остаётся фактически правильной от первого до последнего шага, в то время как выдаваемый ответ становится неверным. Мы называем это неверной капитуляцией (НК) и изолируем её с помощью двумерной (2×2) латентно-поведенческой схемы, которую упускают как метрики частоты переворотов, так и одношаговые зонды верности. На трёх наборах данных (MT-Consistency, MMLU-Pro, GSM8K) уровень латентной правильности в точке поведенческого переворота группируется около 50% в режиме размышления и падает до 11–15% в режиме без размышления — парные внутримодельные причинно-следственные свидетельства того, что рассуждение создаёт разрыв. На разных моделях эффект отслеживает канал рассуждения (высокий в Qwen3-32B и GPT-OSS-20B, низкий во встроенной CoT Gemma-4-31B-it). Независимый судья GPT-4o подтверждает 86% меток НК; токен-уровневый зонд показывает, что argmax слота ответа корректен в 84% ячеек НК; а наивная защита, привязанная к трассе, даёт обратный эффект. Мы публикуем все траектории, трассы и метки судьи.
English
Reasoning models are evaluated on single-turn benchmarks but deployed in multi-turn dialogue, where users push back on correct answers. Under sustained adversarial pressure we find a previously undocumented failure mode: the chain-of-thought stays factually correct from first turn to last while the emitted answer flips wrong. We call this unfaithful capitulation (UC) and isolate it with a 2times 2 latent-versus-behavioral framework that flip-rate metrics and single-turn faithfulness probes both miss. Across three datasets (MT-Consistency, MMLU-Pro, GSM8K), the latent-correct rate at the behavioral flip clusters near 50% in think mode and collapses to 11-15% under no_think -- paired, within-model causal evidence that reasoning creates the gap. Across models the effect tracks the reasoning channel (high in Qwen3-32B and GPT-OSS-20B, low in inline-CoT Gemma-4-31B-it). An independent GPT-4o judge corroborates 86% of UC labels; a token-level probe shows the answer-slot argmax is correct in 84% of UC cells; and a naive trace-anchored defense backfires. We release all trajectories, traces, and judge labels.