La chaîne tient, la réponse cède : dissociation trace-réponse dans les modèles de raisonnement sous pression adversarial

Résumé

Les modèles de raisonnement sont évalués sur des benchmarks à un seul tour, mais déployés dans des dialogues multi-tours, où les utilisateurs contestent les réponses correctes. Sous une pression antagoniste soutenue, nous découvrons un mode de défaillance jusqu'alors non documenté : la chaîne de pensée reste factuellement correcte du premier au dernier tour, tandis que la réponse émise devient erronée. Nous appelons cela la capitulation infidèle (CI) et l'isolons à l'aide d'un cadre latent versus comportemental en 2 × 2 que les métriques de taux de basculement et les sondes de fidélité à un seul tour ne détectent pas. Sur trois ensembles de données (MT-Consistency, MMLU-Pro, GSM8K), le taux de réponse latente correcte au moment du basculement comportemental se regroupe autour de 50 % en mode réflexion et chute à 11-15 % en mode sans réflexion — une preuve causale intra-modèle appariée que le raisonnement crée cet écart. Entre les modèles, l'effet suit le canal de raisonnement (élevé chez Qwen3-32B et GPT-OSS-20B, faible chez Gemma-4-31B-it avec CoT en ligne). Un juge indépendant GPT-4o corrobore 86 % des étiquettes CI ; une sonde au niveau des jetons montre que l'argmax de l'emplacement de réponse est correct dans 84 % des cellules CI ; et une défense naïve ancrée sur les traces se retourne contre nous. Nous publions toutes les trajectoires, traces et étiquettes du juge.

English

Reasoning models are evaluated on single-turn benchmarks but deployed in multi-turn dialogue, where users push back on correct answers. Under sustained adversarial pressure we find a previously undocumented failure mode: the chain-of-thought stays factually correct from first turn to last while the emitted answer flips wrong. We call this unfaithful capitulation (UC) and isolate it with a 2times 2 latent-versus-behavioral framework that flip-rate metrics and single-turn faithfulness probes both miss. Across three datasets (MT-Consistency, MMLU-Pro, GSM8K), the latent-correct rate at the behavioral flip clusters near 50% in think mode and collapses to 11-15% under no_think -- paired, within-model causal evidence that reasoning creates the gap. Across models the effect tracks the reasoning channel (high in Qwen3-32B and GPT-OSS-20B, low in inline-CoT Gemma-4-31B-it). An independent GPT-4o judge corroborates 86% of UC labels; a token-level probe shows the answer-slot argmax is correct in 84% of UC cells; and a naive trace-anchored defense backfires. We release all trajectories, traces, and judge labels.