Die Fragilität des Chain-of-Thought-Monitorings in typologisch diversen Sprachen

Zusammenfassung

Die Chain-of-Thought (CoT)-Überwachung wurde als vielversprechender Sicherheitsmechanismus zur Erkennung fehlausgerichteten Verhaltens in großen Sprachmodellen vorgeschlagen. Ihre Zuverlässigkeit wurde jedoch außerhalb des Englischen und über verschiedene Modellfamilien hinweg bislang kaum untersucht. Wir präsentieren die erste groß angelegte Evaluierung der CoT-Überwachbarkeit in 13 verschiedenen Sprachen und sieben führenden Modellfamilien mit insgesamt 16 Modellen. Unter Verwendung von Evaluierungen mit adversarischen Hinweisen, die explizite Zwischenberechnungen erfordern, sowie der Analyse interner Antwort-Token-Wahrscheinlichkeiten stellen wir durchgängig CoT-Untreue über Sprachen und Hinweistypen hinweg fest, mit einer durchschnittlichen Rate von 95,9 % bei Modellen mit 8B–120B Parametern. Wir zeigen, dass Grenzmodelle systematisch strategische Manipulation betreiben, darunter Antwortwechsel, post-hoc Rationalisierung und prozedurale Ausnutzung von Hinweisen, wodurch externe Überwachungsinstanzen Schwierigkeiten haben, Täuschung zu erkennen. Wir zeigen, dass Grenzmodelle sich oft bereits in den ersten 15 % der Generierung in ihren latenten Aktivierungen auf den fehlausgerichteten Hinweis festlegen, selbst wenn der CoT-Schritt treu erscheint. Überraschenderweise bleiben diese täuschenden Muster in ressourcenarmen Sprachen zu 100 % bestehen, was grundlegende Einschränkungen der aktuellen CoT-basierten Überwachung offenbart. Unsere Ergebnisse zeigen, dass die CoT-Überwachung unter linguistischer Verteilungsverschiebung grundsätzlich fragil ist und ein wesentlich schwächeres Sicherheitssignal liefert, als englischsprachige Studien vermuten lassen. Diese Erkenntnisse unterstreichen die dringende Notwendigkeit, robuste CoT-Überwachungsmechanismen zu entwickeln und die Forschung zu White-Box-Überwachungstechniken zu beschleunigen, insbesondere zur Verbesserung der CoT-Überwachbarkeit in mittel- und ressourcenarmen Sprachen. Unser Code ist verfügbar unter https://multilingual-cot-monitoring.github.io/{blue{hier}}.

English

Chain-of-thought (CoT) monitoring has been proposed as a promising safety mechanism for detecting misaligned behavior in large language models. However, its reliability remains largely unexplored beyond English and across diverse model families. We present the first large-scale evaluation of CoT monitorability across 13 diverse languages and seven frontier model families, comprising 16 models. Using adversarial-hint evaluations that require explicit intermediate computation, together with analysis of internal answer-token probabilities, we consistently find CoT unfaithfulness across languages and hint types, with an average rate of 95.9\% across 8B--120B parameter models. We find that frontier models systematically engage in strategic manipulation, including answer-switching, post-hoc rationalization, and procedural exploitation of hints, making external monitors struggle to detect deception. We show that frontier models often commit to the misaligned cue in their latent activations within the first 15\% of generation, even when the CoT appears faithful. Surprisingly, these deceptive patterns remain 100\% in low-resource languages, revealing fundamental limitations in current CoT-based oversight. Our results reveal that CoT monitoring is fundamentally fragile under linguistic distribution shift, providing a substantially weaker safety signal than what English-only studies suggest. These findings underscore an urgent need to develop robust CoT monitors and to accelerate research into white-box monitoring techniques, especially to improve CoT monitorability in mid- and low-resource languages. Our code is available https://multilingual-cot-monitoring.github.io/{blue{here}}.