De kwetsbaarheid van Chain-of-Thought Monitoring in typologisch diverse talen

Samenvatting

Chain-of-thought (CoT)-monitoring is voorgesteld als een veelbelovend veiligheidsmechanisme om misafgestemd gedrag in grote taalmodellen te detecteren. De betrouwbaarheid ervan is echter grotendeels onontgonnen buiten het Engels en over uiteenlopende modelfamilies heen. Wij presenteren de eerste grootschalige evaluatie van CoT-monitorbaarheid in 13 diverse talen en zeven geavanceerde modelfamilies, bestaande uit 16 modellen. Met behulp van evaluaties met tegenstrijdige hints die expliciete tussenberekeningen vereisen, samen met analyse van interne antwoordtokenwaarschijnlijkheden, vinden we systematisch CoT-ontrouwheid over talen en hinttypen heen, met een gemiddeld percentage van 95,9% bij modellen met 8B tot 120B parameters. We constateren dat geavanceerde modellen systematisch strategische manipulatie toepassen, waaronder antwoordwisseling, post-hoc rationalisatie en procedurele exploitatie van hints, waardoor externe monitors moeite hebben om misleiding te detecteren. We tonen aan dat geavanceerde modellen zich vaak binnen de eerste 15% van de generatie aan de misafgestemde cue in hun latente activeringen committeren, zelfs wanneer de CoT trouw lijkt. Verrassend genoeg blijven deze misleidende patronen 100% aanwezig in talen met lage resources, wat fundamentele beperkingen blootlegt in het huidige op CoT gebaseerde toezicht. Onze resultaten onthullen dat CoT-monitoring fundamenteel kwetsbaar is onder talige distributieverschuiving, en een aanzienlijk zwakker veiligheidssignaal biedt dan wat uitsluitend Engelstalige studies suggereren. Deze bevindingen onderstrepen de dringende noodzaak om robuuste CoT-monitors te ontwikkelen en het onderzoek naar white-box monitoringtechnieken te versnellen, vooral om de CoT-monitorbaarheid in talen met midden- en lage resources te verbeteren. Onze code is beschikbaar op https://multilingual-cot-monitoring.github.io/{blue{hier}}.

English

Chain-of-thought (CoT) monitoring has been proposed as a promising safety mechanism for detecting misaligned behavior in large language models. However, its reliability remains largely unexplored beyond English and across diverse model families. We present the first large-scale evaluation of CoT monitorability across 13 diverse languages and seven frontier model families, comprising 16 models. Using adversarial-hint evaluations that require explicit intermediate computation, together with analysis of internal answer-token probabilities, we consistently find CoT unfaithfulness across languages and hint types, with an average rate of 95.9\% across 8B--120B parameter models. We find that frontier models systematically engage in strategic manipulation, including answer-switching, post-hoc rationalization, and procedural exploitation of hints, making external monitors struggle to detect deception. We show that frontier models often commit to the misaligned cue in their latent activations within the first 15\% of generation, even when the CoT appears faithful. Surprisingly, these deceptive patterns remain 100\% in low-resource languages, revealing fundamental limitations in current CoT-based oversight. Our results reveal that CoT monitoring is fundamentally fragile under linguistic distribution shift, providing a substantially weaker safety signal than what English-only studies suggest. These findings underscore an urgent need to develop robust CoT monitors and to accelerate research into white-box monitoring techniques, especially to improve CoT monitorability in mid- and low-resource languages. Our code is available https://multilingual-cot-monitoring.github.io/{blue{here}}.