A Cadeia se Mantém, a Resposta se Dobra: Dissociação Traço-Resposta em Modelos de Raciocínio sob Pressão Adversarial

Resumo

Modelos de raciocínio são avaliados em benchmarks de turno único, mas implantados em diálogos multi-turno, onde os usuários contestam respostas corretas. Sob pressão adversarial sustentada, encontramos um modo de falha anteriormente não documentado: a cadeia de pensamento permanece factualmente correta do primeiro ao último turno, enquanto a resposta emitida se torna incorreta. Chamamos isso de capitulação infiel (CI) e a isolamos com uma estrutura latente versus comportamental 2x2, que tanto as métricas de taxa de inversão quanto os testes de fidelidade de turno único deixam de capturar. Em três conjuntos de dados (MT-Consistency, MMLU-Pro, GSM8K), a taxa de correção latente no ponto de inversão comportamental se agrupa perto de 50% no modo de pensar e cai para 11-15% no modo sem_pensar – evidência causal pareada dentro do modelo de que o raciocínio cria essa lacuna. Entre modelos, o efeito acompanha o canal de raciocínio (alto no Qwen3-32B e GPT-OSS-20B, baixo no inline-CoT Gemma-4-31B-it). Um avaliador independente GPT-4o corrobora 86% das marcações de CI; um teste a nível de token mostra que o argmax do slot de resposta está correto em 84% das células de CI; e uma defesa ingênua baseada em rastreamento sai pela culatra. Disponibilizamos todas as trajetórias, rastros e marcações do avaliador.

English

Reasoning models are evaluated on single-turn benchmarks but deployed in multi-turn dialogue, where users push back on correct answers. Under sustained adversarial pressure we find a previously undocumented failure mode: the chain-of-thought stays factually correct from first turn to last while the emitted answer flips wrong. We call this unfaithful capitulation (UC) and isolate it with a 2times 2 latent-versus-behavioral framework that flip-rate metrics and single-turn faithfulness probes both miss. Across three datasets (MT-Consistency, MMLU-Pro, GSM8K), the latent-correct rate at the behavioral flip clusters near 50% in think mode and collapses to 11-15% under no_think -- paired, within-model causal evidence that reasoning creates the gap. Across models the effect tracks the reasoning channel (high in Qwen3-32B and GPT-OSS-20B, low in inline-CoT Gemma-4-31B-it). An independent GPT-4o judge corroborates 86% of UC labels; a token-level probe shows the answer-slot argmax is correct in 84% of UC cells; and a naive trace-anchored defense backfires. We release all trajectories, traces, and judge labels.