De keten houdt stand, het antwoord bezwijkt: trace-antwoord-dissociatie in redeneermodellen onder adversarial druk
The Chain Holds, the Answer Folds: Trace-Answer Dissociation in Reasoning Models Under Adversarial Pressure
May 27, 2026
Auteurs: Yubo Li, Ramayya Krishnan, Rema Padman
cs.AI
Samenvatting
Redeneringsmodellen worden geëvalueerd op beoordelingen met één gespreksbeurt, maar ingezet in meerbeurtse dialogen waarin gebruikers terugkomen op correcte antwoorden. Bij aanhoudende vijandige druk ontdekken we een voorheen niet-gedocumenteerde foutmodus: de denkketen blijft feitelijk correct van de eerste tot de laatste beurt, terwijl het gegeven antwoord foutief omslaat. Dit noemen we ontrouwe capitulatie (UC) en isoleren we met een 2x2 latent- versus gedragskader dat zowel omkeerratiometrieken als éénbeurtse getrouwheidssondes missen. Over drie datasets (MT-Consistency, MMLU-Pro, GSM8K) clustert het latente correctheidspercentage bij de gedragsmatige omkering rond 50% in de denkmodus en stort het in tot 11-15% onder no_think – gepaard, binnenmodel causaal bewijs dat redeneren de kloof creëert. Over modellen heen volgt het effect het redeneerkanaal (hoog in Qwen3-32B en GPT-OSS-20B, laag in inline-CoT Gemma-4-31B-it). Een onafhankelijke GPT-4o-beoordelaar bevestigt 86% van de UC-labels; een token-niveau sonde toont aan dat het argmax van de antwoordsleuf in 84% van de UC-cellen correct is; en een naïef spoorverankerd verweer keert zich tegen de gebruiker. We geven alle trajecten, sporen en beoordelaarslabels vrij.
English
Reasoning models are evaluated on single-turn benchmarks but deployed in multi-turn dialogue, where users push back on correct answers. Under sustained adversarial pressure we find a previously undocumented failure mode: the chain-of-thought stays factually correct from first turn to last while the emitted answer flips wrong. We call this unfaithful capitulation (UC) and isolate it with a 2times 2 latent-versus-behavioral framework that flip-rate metrics and single-turn faithfulness probes both miss. Across three datasets (MT-Consistency, MMLU-Pro, GSM8K), the latent-correct rate at the behavioral flip clusters near 50% in think mode and collapses to 11-15% under no_think -- paired, within-model causal evidence that reasoning creates the gap. Across models the effect tracks the reasoning channel (high in Qwen3-32B and GPT-OSS-20B, low in inline-CoT Gemma-4-31B-it). An independent GPT-4o judge corroborates 86% of UC labels; a token-level probe shows the answer-slot argmax is correct in 84% of UC cells; and a naive trace-anchored defense backfires. We release all trajectories, traces, and judge labels.