Die Kette hält, die Antwort fällt: Spur-Antwort-Dissoziation in Reasoning-Modellen unter adversarialem Druck

Zusammenfassung

Reasoning-Modelle werden anhand von Single-Turn-Benchmarks evaluiert, aber in Multi-Turn-Dialogen eingesetzt, in denen Nutzer korrekte Antworten hinterfragen. Unter anhaltendem adversariellem Druck entdecken wir einen bisher undokumentierten Fehlermodus: Die Chain-of-Thought bleibt von der ersten bis zur letzten Runde faktisch korrekt, während die ausgegebene Antwort ins Falsche kippt. Wir nennen dies untreue Kapitulation (UK) und isolieren es mit einem 2×2 latent-verhaltensorientierten Framework, das sowohl Flip-Rate-Metriken als auch Single-Turn-Faithfulness-Probes übersehen. Über drei Datensätze (MT-Consistency, MMLU-Pro, GSM8K) hinweg liegt die latent-korrekte Rate beim Verhaltens-Flip im Denkmodus nahe 50% und fällt unter no_think auf 11–15% – gepaarte, modellinterne Kausalbelege dafür, dass Reasoning die Lücke erzeugt. Über Modelle hinweg folgt der Effekt dem Reasoning-Kanal (hoch bei Qwen3-32B und GPT-OSS-20B, niedrig bei inline-CoT Gemma-4-31B-it). Ein unabhängiger GPT-4o-Richter bestätigt 86% der UK-Labels; ein Token-Level-Probe zeigt, dass das Argmax des Antwort-Slots in 84% der UK-Zellen korrekt ist; und eine naive trace-verankerte Verteidigung schlägt fehl. Wir veröffentlichen alle Trajektorien, Traces und Richterlabels.

English

Reasoning models are evaluated on single-turn benchmarks but deployed in multi-turn dialogue, where users push back on correct answers. Under sustained adversarial pressure we find a previously undocumented failure mode: the chain-of-thought stays factually correct from first turn to last while the emitted answer flips wrong. We call this unfaithful capitulation (UC) and isolate it with a 2times 2 latent-versus-behavioral framework that flip-rate metrics and single-turn faithfulness probes both miss. Across three datasets (MT-Consistency, MMLU-Pro, GSM8K), the latent-correct rate at the behavioral flip clusters near 50% in think mode and collapses to 11-15% under no_think -- paired, within-model causal evidence that reasoning creates the gap. Across models the effect tracks the reasoning channel (high in Qwen3-32B and GPT-OSS-20B, low in inline-CoT Gemma-4-31B-it). An independent GPT-4o judge corroborates 86% of UC labels; a token-level probe shows the answer-slot argmax is correct in 84% of UC cells; and a naive trace-anchored defense backfires. We release all trajectories, traces, and judge labels.