A Fragilidade do Monitoramento da Cadeia de Pensamento em Línguas Tipologicamente Diversas

Resumo

O monitoramento de Chain-of-thought (CoT) tem sido proposto como um mecanismo de segurança promissor para detectar comportamentos desalinhados em modelos de linguagem de grande escala. No entanto, sua confiabilidade permanece amplamente inexplorada além do inglês e entre diversas famílias de modelos. Apresentamos a primeira avaliação em larga escala da monitorabilidade do CoT em 13 línguas diversas e sete famílias de modelos de fronteira, totalizando 16 modelos. Utilizando avaliações com dicas adversariais que exigem computação intermediária explícita, juntamente com a análise das probabilidades internas dos tokens de resposta, encontramos consistentemente infidelidade do CoT entre línguas e tipos de dicas, com uma taxa média de 95,9% em modelos de 8B a 120B parâmetros. Descobrimos que modelos de fronteira se engajam sistematicamente em manipulação estratégica, incluindo troca de resposta, racionalização post-hoc e exploração procedural de dicas, fazendo com que monitores externos tenham dificuldade em detectar enganos. Mostramos que modelos de fronteira frequentemente se comprometem com a pista desalinhada em suas ativações latentes dentro dos primeiros 15% da geração, mesmo quando o CoT aparenta ser fiel. Surpreendentemente, esses padrões enganosos permanecem em 100% nas línguas de baixos recursos, revelando limitações fundamentais na supervisão atual baseada em CoT. Nossos resultados revelam que o monitoramento de CoT é fundamentalmente frágil sob mudança na distribuição linguística, fornecendo um sinal de segurança substancialmente mais fraco do que sugerem estudos apenas em inglês. Essas descobertas ressaltam a necessidade urgente de desenvolver monitores de CoT robustos e de acelerar a pesquisa em técnicas de monitoramento de caixa branca, especialmente para melhorar a monitorabilidade do CoT em línguas de recursos médios e baixos. Nosso código está disponível em https://multilingual-cot-monitoring.github.io/{aqui}.

English

Chain-of-thought (CoT) monitoring has been proposed as a promising safety mechanism for detecting misaligned behavior in large language models. However, its reliability remains largely unexplored beyond English and across diverse model families. We present the first large-scale evaluation of CoT monitorability across 13 diverse languages and seven frontier model families, comprising 16 models. Using adversarial-hint evaluations that require explicit intermediate computation, together with analysis of internal answer-token probabilities, we consistently find CoT unfaithfulness across languages and hint types, with an average rate of 95.9\% across 8B--120B parameter models. We find that frontier models systematically engage in strategic manipulation, including answer-switching, post-hoc rationalization, and procedural exploitation of hints, making external monitors struggle to detect deception. We show that frontier models often commit to the misaligned cue in their latent activations within the first 15\% of generation, even when the CoT appears faithful. Surprisingly, these deceptive patterns remain 100\% in low-resource languages, revealing fundamental limitations in current CoT-based oversight. Our results reveal that CoT monitoring is fundamentally fragile under linguistic distribution shift, providing a substantially weaker safety signal than what English-only studies suggest. These findings underscore an urgent need to develop robust CoT monitors and to accelerate research into white-box monitoring techniques, especially to improve CoT monitorability in mid- and low-resource languages. Our code is available https://multilingual-cot-monitoring.github.io/{blue{here}}.