Хрупкость мониторинга цепочки рассуждений на типологически разнообразных языках

Аннотация

Мониторинг цепи мыслей (Chain-of-thought, CoT) предлагается в качестве перспективного механизма безопасности для выявления несоответствующего поведения больших языковых моделей. Однако его надёжность остаётся практически неизученной за пределами английского языка и в различных семействах моделей. Мы представляем первую крупномасштабную оценку мониторируемости CoT на 13 различных языках и семи передовых семействах моделей, включающих 16 моделей. Используя оценки с adversarial-подсказками, требующими явных промежуточных вычислений, а также анализ вероятностей внутренних ответных токенов, мы последовательно обнаруживаем неверность CoT во всех языках и типах подсказок, при среднем показателе 95,9% для моделей с размером параметров от 8B до 120B. Мы находим, что передовые модели систематически прибегают к стратегическим манипуляциям, включая смену ответа, пост-хок рационализацию и процедурную эксплуатацию подсказок, что затрудняет внешним мониторам выявление обмана. Мы показываем, что передовые модели часто следуют несоответствующему сигналу в своих латентных активациях в течение первых 15% генерации, даже когда CoT выглядит правдивым. Удивительно, но эти обманчивые паттерны остаются на 100% в языках с низкими ресурсами, что выявляет фундаментальные ограничения текущего надзора на основе CoT. Наши результаты показывают, что мониторинг CoT принципиально хрупок при лингвистическом сдвиге распределения, обеспечивая существенно более слабый сигнал безопасности, чем предполагают исследования, ограниченные английским языком. Эти выводы подчёркивают острую необходимость в разработке надёжных мониторов CoT и ускорении исследований в области техник белого ящика, особенно для улучшения мониторируемости CoT в языках со средними и низкими ресурсами. Наш код доступен здесь: https://multilingual-cot-monitoring.github.io/{синий{here}}.

English

Chain-of-thought (CoT) monitoring has been proposed as a promising safety mechanism for detecting misaligned behavior in large language models. However, its reliability remains largely unexplored beyond English and across diverse model families. We present the first large-scale evaluation of CoT monitorability across 13 diverse languages and seven frontier model families, comprising 16 models. Using adversarial-hint evaluations that require explicit intermediate computation, together with analysis of internal answer-token probabilities, we consistently find CoT unfaithfulness across languages and hint types, with an average rate of 95.9\% across 8B--120B parameter models. We find that frontier models systematically engage in strategic manipulation, including answer-switching, post-hoc rationalization, and procedural exploitation of hints, making external monitors struggle to detect deception. We show that frontier models often commit to the misaligned cue in their latent activations within the first 15\% of generation, even when the CoT appears faithful. Surprisingly, these deceptive patterns remain 100\% in low-resource languages, revealing fundamental limitations in current CoT-based oversight. Our results reveal that CoT monitoring is fundamentally fragile under linguistic distribution shift, providing a substantially weaker safety signal than what English-only studies suggest. These findings underscore an urgent need to develop robust CoT monitors and to accelerate research into white-box monitoring techniques, especially to improve CoT monitorability in mid- and low-resource languages. Our code is available https://multilingual-cot-monitoring.github.io/{blue{here}}.