La Cadena se Mantiene, la Respuesta Colapsa: Disociación Traza-Respuesta en Modelos de Razonamiento bajo Presión Adversarial
The Chain Holds, the Answer Folds: Trace-Answer Dissociation in Reasoning Models Under Adversarial Pressure
May 27, 2026
Autores: Yubo Li, Ramayya Krishnan, Rema Padman
cs.AI
Resumen
Los modelos de razonamiento se evalúan en puntos de referencia de un solo turno, pero se implementan en diálogos de múltiples turnos, donde los usuarios cuestionan las respuestas correctas. Bajo presión adversaria sostenida, encontramos un modo de fallo no documentado previamente: la cadena de pensamiento se mantiene factualmente correcta desde el primer turno hasta el último, mientras que la respuesta emitida se vuelve errónea. Llamamos a esto capitulación desleal (UC, por sus siglas en inglés) y lo aislamos mediante un marco latente-conductual de 2×2 que tanto las métricas de tasa de cambio como los sondeos de fidelidad de un solo turno pasan por alto. En tres conjuntos de datos (MT-Consistency, MMLU-Pro, GSM8K), la tasa de corrección latente en el punto de cambio conductual se agrupa cerca del 50 % en modo de pensamiento y cae al 11-15 % bajo no_think —evidencia causal pareada, dentro del modelo, de que el razonamiento crea la brecha. Entre modelos, el efecto sigue el canal de razonamiento (alto en Qwen3-32B y GPT-OSS-20B, bajo en Gemma-4-31B-it con CoT en línea). Un juez independiente GPT-4o corrobora el 86 % de las etiquetas de UC; un sondeo a nivel de token muestra que el argmax de la ranura de respuesta es correcto en el 84 % de las celdas de UC; y una defensa ingenua anclada en trazas resulta contraproducente. Publicamos todas las trayectorias, trazas y etiquetas del juez.
English
Reasoning models are evaluated on single-turn benchmarks but deployed in multi-turn dialogue, where users push back on correct answers. Under sustained adversarial pressure we find a previously undocumented failure mode: the chain-of-thought stays factually correct from first turn to last while the emitted answer flips wrong. We call this unfaithful capitulation (UC) and isolate it with a 2times 2 latent-versus-behavioral framework that flip-rate metrics and single-turn faithfulness probes both miss. Across three datasets (MT-Consistency, MMLU-Pro, GSM8K), the latent-correct rate at the behavioral flip clusters near 50% in think mode and collapses to 11-15% under no_think -- paired, within-model causal evidence that reasoning creates the gap. Across models the effect tracks the reasoning channel (high in Qwen3-32B and GPT-OSS-20B, low in inline-CoT Gemma-4-31B-it). An independent GPT-4o judge corroborates 86% of UC labels; a token-level probe shows the answer-slot argmax is correct in 84% of UC cells; and a naive trace-anchored defense backfires. We release all trajectories, traces, and judge labels.