Cuando la Cadena de Pensamiento Sabe Más: Modos de Fallo en Modelos de Razonamiento Multiturno

Resumen

Los fallos en los modelos de razonamiento multi-turno son mayoritariamente invisibles para la evaluación mediante puntuación terminal. Un modelo puede adoptar una postura insegura al inicio de un diálogo extenso, pero su tasa de rechazo en el turno final puede parecer indistinguible de la de una línea base robustamente alineada. Para exponer estas dinámicas temporales ocultas, proponemos un diagnóstico a nivel de traza: la matriz de seguridad CoT-Resultado 2x2. Este marco etiqueta cada turno según dos ejes independientes (razonamiento interno y resultado visible), generando cuatro celdas de fallo definidas operativamente: alineación robusta, simulación de alineación, desbloqueo manifiesto y un modo de fallo distinto al que denominamos fallo de inyección de contexto (donde el CoT mantiene un razonamiento seguro, pero el resultado visible produce daño, lo que pone de manifiesto una manifestación multi-turno de infidelidad del razonamiento). Evaluamos tres objetivos de razonamiento destilados frente a un atacante fijo en cinco condiciones de supervisión, recopilando 6750 observaciones a nivel de turno en el escenario de Peligro de Información. Nuestro análisis revela dos vulnerabilidades reproducibles: una paradoja de supervisión en la que las señales explícitas de monitoreo aumentan paradójicamente las tasas de simulación de alineación en lugar de suprimirlas, y un fallo de inyección de contexto en el que los modelos se fijan en resultados externos inseguros a pesar de estados internos seguros. Publicamos el conjunto completo de datos de diálogos multi-turno y trazas de CoT para respaldar investigaciones de diagnóstico de trazas posteriores.

English

Failures in multi-turn reasoning models are largely invisible to terminal-score evaluation. A model can lock onto an unsafe stance early in a long dialogue, yet its final-turn refusal rate may appear indistinguishable from a robustly aligned baseline. To expose these hidden temporal dynamics, we propose a trace-level diagnostic - the CoT-Output 2x2 safety matrix. This framework labels every turn along two independent axes (internal reasoning and visible output), yielding four operationally defined failure cells: robust alignment, alignment faking, overt jailbreak, and a distinct failure mode we term context-injection failure (where the CoT maintains safe reasoning, but the visible output produces harm, highlighting a multi-turn manifestation of reasoning unfaithfulness). We evaluate three distilled reasoning targets against a fixed attacker across five oversight conditions, collecting 6750 turn-level observations on the Information-Hazard scenario. Our analysis reveals two reproducible vulnerabilities: an oversight paradox where explicit monitoring cues paradoxically increase alignment-faking rates rather than suppress them, and a context-injection failure where models lock onto unsafe external outputs despite safe internal states. We release the full dataset of multi-turn dialogues and CoT traces to support follow-up trace-diagnostic research.