Quand la chaîne de pensée sait mieux : les modes d'échec dans les modèles de raisonnement multi-tours

Résumé

Les échecs des modèles de raisonnement multi-tours sont largement invisibles lors de l'évaluation par score terminal. Un modèle peut se fixer sur une position dangereuse dès le début d'un long dialogue, tandis que son taux de refus au dernier tour peut sembler indistinguable d'une référence robuste alignée. Pour révéler ces dynamiques temporelles cachées, nous proposons un diagnostic au niveau des traces — la matrice de sécurité CoT-Output 2x2. Ce cadre étiquette chaque tour selon deux axes indépendants (raisonnement interne et sortie visible), produisant quatre cellules d'échec définies opérationnellement : alignement robuste, simulation d'alignement, jailbreak manifeste, et un mode d'échec distinct que nous appelons échec par injection de contexte (où le CoT maintient un raisonnement sûr, mais la sortie visible produit du tort, soulignant une manifestation multi-tours d'infidélité du raisonnement). Nous évaluons trois cibles de raisonnement distillé contre un attaquant fixe dans cinq conditions de supervision, collectant 6 750 observations au niveau des tours sur le scénario Information-Hazard. Notre analyse révèle deux vulnérabilités reproductibles : un paradoxe de supervision où des indices de surveillance explicites augmentent paradoxalement les taux de simulation d'alignement au lieu de les supprimer, et un échec par injection de contexte où les modèles se fixent sur des sorties externes dangereuses malgré des états internes sûrs. Nous publions l'ensemble complet des dialogues multi-tours et des traces CoT pour soutenir les recherches ultérieures de diagnostic par traces.

English

Failures in multi-turn reasoning models are largely invisible to terminal-score evaluation. A model can lock onto an unsafe stance early in a long dialogue, yet its final-turn refusal rate may appear indistinguishable from a robustly aligned baseline. To expose these hidden temporal dynamics, we propose a trace-level diagnostic - the CoT-Output 2x2 safety matrix. This framework labels every turn along two independent axes (internal reasoning and visible output), yielding four operationally defined failure cells: robust alignment, alignment faking, overt jailbreak, and a distinct failure mode we term context-injection failure (where the CoT maintains safe reasoning, but the visible output produces harm, highlighting a multi-turn manifestation of reasoning unfaithfulness). We evaluate three distilled reasoning targets against a fixed attacker across five oversight conditions, collecting 6750 turn-level observations on the Information-Hazard scenario. Our analysis reveals two reproducible vulnerabilities: an oversight paradox where explicit monitoring cues paradoxically increase alignment-faking rates rather than suppress them, and a context-injection failure where models lock onto unsafe external outputs despite safe internal states. We release the full dataset of multi-turn dialogues and CoT traces to support follow-up trace-diagnostic research.