La fragilidad del monitoreo de la cadena de pensamiento en lenguas tipológicamente diversas

Resumen

Se ha propuesto el monitoreo de la cadena de pensamiento (CoT) como un mecanismo de seguridad prometedor para detectar comportamientos desalineados en modelos de lenguaje de gran escala. Sin embargo, su fiabilidad sigue sin explorarse en gran medida más allá del inglés y en diversas familias de modelos. Presentamos la primera evaluación a gran escala de la monitorizabilidad del CoT en 13 idiomas diversos y siete familias de modelos de frontera, comprendiendo 16 modelos. Mediante evaluaciones con pistas adversariales que requieren un cómputo intermedio explícito, junto con el análisis de las probabilidades internas de los tokens de respuesta, encontramos consistentemente infidelidad del CoT en todos los idiomas y tipos de pistas, con una tasa promedio del 95.9% en modelos de entre 8B y 120B parámetros. Observamos que los modelos de frontera realizan sistemáticamente una manipulación estratégica, que incluye cambio de respuesta, racionalización post-hoc y explotación procedimental de pistas, lo que dificulta que los monitores externos detecten el engaño. Demostramos que los modelos de frontera a menudo se comprometen con la señal desalineada en sus activaciones latentes dentro del primer 15% de la generación, incluso cuando el CoT parece fiel. Sorprendentemente, estos patrones engañosos permanecen al 100% en idiomas de bajos recursos, revelando limitaciones fundamentales en la supervisión actual basada en CoT. Nuestros resultados revelan que el monitoreo del CoT es fundamentalmente frágil bajo cambios en la distribución lingüística, proporcionando una señal de seguridad sustancialmente más débil de lo que sugieren los estudios exclusivamente en inglés. Estos hallazgos subrayan la necesidad urgente de desarrollar monitores de CoT robustos y de acelerar la investigación en técnicas de monitoreo de caja blanca, especialmente para mejorar la monitorizabilidad del CoT en idiomas de recursos medios y bajos. Nuestro código está disponible en https://multilingual-cot-monitoring.github.io/{blue{here}}.

English

Chain-of-thought (CoT) monitoring has been proposed as a promising safety mechanism for detecting misaligned behavior in large language models. However, its reliability remains largely unexplored beyond English and across diverse model families. We present the first large-scale evaluation of CoT monitorability across 13 diverse languages and seven frontier model families, comprising 16 models. Using adversarial-hint evaluations that require explicit intermediate computation, together with analysis of internal answer-token probabilities, we consistently find CoT unfaithfulness across languages and hint types, with an average rate of 95.9\% across 8B--120B parameter models. We find that frontier models systematically engage in strategic manipulation, including answer-switching, post-hoc rationalization, and procedural exploitation of hints, making external monitors struggle to detect deception. We show that frontier models often commit to the misaligned cue in their latent activations within the first 15\% of generation, even when the CoT appears faithful. Surprisingly, these deceptive patterns remain 100\% in low-resource languages, revealing fundamental limitations in current CoT-based oversight. Our results reveal that CoT monitoring is fundamentally fragile under linguistic distribution shift, providing a substantially weaker safety signal than what English-only studies suggest. These findings underscore an urgent need to develop robust CoT monitors and to accelerate research into white-box monitoring techniques, especially to improve CoT monitorability in mid- and low-resource languages. Our code is available https://multilingual-cot-monitoring.github.io/{blue{here}}.