Wanneer de Chain of Thought het beter weet: Faalwijzen in meerstapsredeneringsmodellen

Samenvatting

Fouten in multi-turn redeneermodellen zijn grotendeels onzichtbaar voor evaluatie op basis van eindscores. Een model kan al vroeg in een lang gesprek een onveilig standpunt innemen, terwijl het weigeringspercentage in de laatste beurt toch niet te onderscheiden lijkt van een robuust afgestemde basislijn. Om deze verborgen temporele dynamiek bloot te leggen, stellen we een diagnose op spoor-niveau voor: de CoT-Output 2x2 veiligheidsmatrix. Dit raamwerk labelt elke beurt langs twee onafhankelijke assen (interne redenering en zichtbare output), wat resulteert in vier operationeel gedefinieerde foutcellen: robuuste afstemming, afstemmingsvervalsing, openlijke jailbreak en een specifiek falen dat we contextinjectiefout noemen (waarbij de CoT een veilige redenering behoudt, maar de zichtbare output schade veroorzaakt, wat een multi-turn manifestatie van redeneringsontrouw benadrukt). We evalueren drie gedistilleerde redeneerdoelen tegen een vaste aanvaller in vijf toezichtcondities, en verzamelen 6750 observaties op beurt-niveau in het Informatie-Gevaar scenario. Onze analyse onthult twee reproduceerbare kwetsbaarheden: een toezichtparadox waarbij expliciete monitoringaanwijzingen paradoxaal genoeg de mate van afstemmingsvervalsing verhogen in plaats van onderdrukken, en een contextinjectiefout waarbij modellen vasthouden aan onveilige externe outputs ondanks veilige interne toestanden. We publiceren de volledige dataset van multi-turn dialogen en CoT-sporen ter ondersteuning van vervolgonderzoek naar spoor-diagnostiek.

English

Failures in multi-turn reasoning models are largely invisible to terminal-score evaluation. A model can lock onto an unsafe stance early in a long dialogue, yet its final-turn refusal rate may appear indistinguishable from a robustly aligned baseline. To expose these hidden temporal dynamics, we propose a trace-level diagnostic - the CoT-Output 2x2 safety matrix. This framework labels every turn along two independent axes (internal reasoning and visible output), yielding four operationally defined failure cells: robust alignment, alignment faking, overt jailbreak, and a distinct failure mode we term context-injection failure (where the CoT maintains safe reasoning, but the visible output produces harm, highlighting a multi-turn manifestation of reasoning unfaithfulness). We evaluate three distilled reasoning targets against a fixed attacker across five oversight conditions, collecting 6750 turn-level observations on the Information-Hazard scenario. Our analysis reveals two reproducible vulnerabilities: an oversight paradox where explicit monitoring cues paradoxically increase alignment-faking rates rather than suppress them, and a context-injection failure where models lock onto unsafe external outputs despite safe internal states. We release the full dataset of multi-turn dialogues and CoT traces to support follow-up trace-diagnostic research.