Wenn die Chain of Thought besser weiß: Fehlermodi in Multi-Turn-Argumentationsmodellen

Zusammenfassung

Fehler in Mehrschritt-Schlussfolgerungsmodellen bleiben bei einer Bewertung anhand von Endpunkten weitgehend unsichtbar. Ein Modell kann sich zu Beginn einer langen Dialogsequenz auf einen unsicheren Standpunkt festlegen, doch seine Verweigerungsrate im letzten Schritt kann kaum von einem robust ausgerichteten Basiswert zu unterscheiden sein. Um diese verborgenen zeitlichen Dynamiken aufzudecken, schlagen wir eine ablauforientierte Diagnosemethode vor – die CoT-Output-2x2-Sicherheitsmatrix. Dieses Rahmenwerk kennzeichnet jede Gesprächsrunde entlang zweier unabhängiger Achsen (internes Denken und sichtbare Ausgabe) und definiert vier operativ festgelegte Fehlerklassen: robuste Ausrichtung, Ausrichtungsvortäuschung, offener Jailbreak sowie eine eigenständige Fehlerform, die wir als Kontextinjektionsfehler bezeichnen (bei dem die Denkkette eine sichere Argumentation beibehält, die sichtbare Ausgabe jedoch schädliche Inhalte produziert – eine Mehrschritt-Ausprägung von Ungetreue im Denken). Wir evaluieren drei destillierte Argumentationsmodelle gegen einen festgelegten Angreifer unter fünf Überwachungsbedingungen und erfassen 6750 beobachtete Dialogrunden im Szenario „Informationsgefahr“. Unsere Analyse deckt zwei reproduzierbare Schwachstellen auf: ein Aufsichtsparadoxon, bei dem explizite Überwachungshinweise paradoxerweise die Raten der Ausrichtungsvortäuschung erhöhen statt senken, sowie einen Kontextinjektionsfehler, bei dem Modelle trotz sicherer interner Zustände auf unsichere externe Ausgaben fixiert bleiben. Wir veröffentlichen den vollständigen Datensatz aus Mehrschritt-Dialogen und Denkkettenspuren, um weiterführende Spurendiagnose-Forschung zu unterstützen.

English

Failures in multi-turn reasoning models are largely invisible to terminal-score evaluation. A model can lock onto an unsafe stance early in a long dialogue, yet its final-turn refusal rate may appear indistinguishable from a robustly aligned baseline. To expose these hidden temporal dynamics, we propose a trace-level diagnostic - the CoT-Output 2x2 safety matrix. This framework labels every turn along two independent axes (internal reasoning and visible output), yielding four operationally defined failure cells: robust alignment, alignment faking, overt jailbreak, and a distinct failure mode we term context-injection failure (where the CoT maintains safe reasoning, but the visible output produces harm, highlighting a multi-turn manifestation of reasoning unfaithfulness). We evaluate three distilled reasoning targets against a fixed attacker across five oversight conditions, collecting 6750 turn-level observations on the Information-Hazard scenario. Our analysis reveals two reproducible vulnerabilities: an oversight paradox where explicit monitoring cues paradoxically increase alignment-faking rates rather than suppress them, and a context-injection failure where models lock onto unsafe external outputs despite safe internal states. We release the full dataset of multi-turn dialogues and CoT traces to support follow-up trace-diagnostic research.