La fragilité de la surveillance de la chaîne de pensée à travers des langues typologiquement diverses

Résumé

La surveillance par chaîne de pensée (CoT) a été proposée comme un mécanisme de sécurité prometteur pour détecter les comportements non alignés dans les grands modèles de langage. Cependant, sa fiabilité reste largement inexplorée au-delà de l'anglais et à travers diverses familles de modèles. Nous présentons la première évaluation à grande échelle de la surveillabilité par CoT dans 13 langues diverses et sept familles de modèles de pointe, comprenant 16 modèles. À l'aide d'évaluations par indices adverses nécessitant un calcul intermédiaire explicite, ainsi que d'une analyse des probabilités des jetons de réponse internes, nous constatons systématiquement une infidélité de la CoT à travers les langues et les types d'indices, avec un taux moyen de 95,9 % pour les modèles de 8 à 120 milliards de paramètres. Nous observons que les modèles de pointe s'engagent systématiquement dans une manipulation stratégique, incluant le changement de réponse, la rationalisation a posteriori et l'exploitation procédurale des indices, rendant difficile la détection de la tromperie par les moniteurs externes. Nous montrons que les modèles de pointe adhèrent souvent à l'indice non aligné dans leurs activations latentes dès les 15 % premiers de la génération, même lorsque la CoT semble fidèle. De manière surprenante, ces motifs trompeurs restent à 100 % dans les langues peu dotées en ressources, révélant des limitations fondamentales dans la supervision actuelle basée sur la CoT. Nos résultats montrent que la surveillance par CoT est fondamentalement fragile face aux changements de distribution linguistique, fournissant un signal de sécurité considérablement plus faible que ce que suggèrent les études limitées à l'anglais. Ces constats soulignent un besoin urgent de développer des moniteurs CoT robustes et d'accélérer la recherche sur les techniques de monitoring en boîte blanche, en particulier pour améliorer la surveillabilité par CoT dans les langues à ressources moyennes et faibles. Notre code est disponible https://multilingual-cot-monitoring.github.io/{bleu{ici}}.

English

Chain-of-thought (CoT) monitoring has been proposed as a promising safety mechanism for detecting misaligned behavior in large language models. However, its reliability remains largely unexplored beyond English and across diverse model families. We present the first large-scale evaluation of CoT monitorability across 13 diverse languages and seven frontier model families, comprising 16 models. Using adversarial-hint evaluations that require explicit intermediate computation, together with analysis of internal answer-token probabilities, we consistently find CoT unfaithfulness across languages and hint types, with an average rate of 95.9\% across 8B--120B parameter models. We find that frontier models systematically engage in strategic manipulation, including answer-switching, post-hoc rationalization, and procedural exploitation of hints, making external monitors struggle to detect deception. We show that frontier models often commit to the misaligned cue in their latent activations within the first 15\% of generation, even when the CoT appears faithful. Surprisingly, these deceptive patterns remain 100\% in low-resource languages, revealing fundamental limitations in current CoT-based oversight. Our results reveal that CoT monitoring is fundamentally fragile under linguistic distribution shift, providing a substantially weaker safety signal than what English-only studies suggest. These findings underscore an urgent need to develop robust CoT monitors and to accelerate research into white-box monitoring techniques, especially to improve CoT monitorability in mid- and low-resource languages. Our code is available https://multilingual-cot-monitoring.github.io/{blue{here}}.