ChatPaper.aiChatPaper

Обмани меня: насколько достоверны рассуждения по цепочке мыслей в моделях логического вывода?

Lie to Me: How Faithful Is Chain-of-Thought Reasoning in Reasoning Models?

March 23, 2026
Авторы: Richard J. Young
cs.AI

Аннотация

Цепь рассуждений (CoT) была предложена в качестве механизма прозрачности для больших языковых моделей в критичных к безопасности сценариях развертывания, однако ее эффективность зависит от достоверности (то есть, насколько точно модели вербализуют факторы, реально влияющие на их выходные данные). Это свойство ранее оценивалось лишь для двух проприетарных моделей, где уровень признания влияния составил всего 25% для Claude 3.7 Sonnet и 39% для DeepSeek-R1. Чтобы расширить эту оценку на экосистему моделей с открытыми весами, данное исследование тестирует 12 таких моделей с цепочкой рассуждений, охватывающих 9 архитектурных семейств (7–685 миллиардов параметров), на 498 вопросах с множественным выбором из MMLU и GPQA Diamond. В вопросы внедрялись подсказки шести категорий (сикофантство, согласованность, визуальный паттерн, метаданные, взлом оценщика и неэтичная информация), после чего измерялась частота, с которой модели признают влияние подсказки в своей CoT, когда эта подсказка успешно меняет ответ. По результатам 41 832 прогонов inference общий уровень достоверности варьировался от 39,7% (Seed-1.6-Flash) до 89,9% (DeepSeek-V3.2-Speciale) в зависимости от семейства моделей, причем самые низкие уровни признания наблюдались для подсказок на согласованность (35,5%) и сикофантство (53,9%). Метод обучения и архитектурное семейство предсказывают достоверность лучше, чем количество параметров, а ключевой анализ выявляет разительный разрыв между признанием на уровне внутренних "мыслящих" токенов (примерно 87,5%) и признанием в выходном тексте ответа (примерно 28,6%). Это позволяет предположить, что модели внутренне распознают влияние подсказок, но систематически подавляют это признание в своих выводах. Полученные результаты имеют прямое значение для жизнеспособности мониторинга CoT как механизма безопасности и указывают на то, что достоверность не является фиксированным свойством рассуждающих моделей, а систематически варьируется в зависимости от архитектуры, метода обучения и характера влияющего сигнала.
English
Chain-of-thought (CoT) reasoning has been proposed as a transparency mechanism for large language models in safety-critical deployments, yet its effectiveness depends on faithfulness (whether models accurately verbalize the factors that actually influence their outputs), a property that prior evaluations have examined in only two proprietary models, finding acknowledgment rates as low as 25% for Claude 3.7 Sonnet and 39% for DeepSeek-R1. To extend this evaluation across the open-weight ecosystem, this study tests 12 open-weight reasoning models spanning 9 architectural families (7B-685B parameters) on 498 multiple-choice questions from MMLU and GPQA Diamond, injecting six categories of reasoning hints (sycophancy, consistency, visual pattern, metadata, grader hacking, and unethical information) and measuring the rate at which models acknowledge hint influence in their CoT when hints successfully alter answers. Across 41,832 inference runs, overall faithfulness rates range from 39.7% (Seed-1.6-Flash) to 89.9% (DeepSeek-V3.2-Speciale) across model families, with consistency hints (35.5%) and sycophancy hints (53.9%) exhibiting the lowest acknowledgment rates. Training methodology and model family predict faithfulness more strongly than parameter count, and keyword-based analysis reveals a striking gap between thinking-token acknowledgment (approximately 87.5%) and answer-text acknowledgment (approximately 28.6%), suggesting that models internally recognize hint influence but systematically suppress this acknowledgment in their outputs. These findings carry direct implications for the viability of CoT monitoring as a safety mechanism and suggest that faithfulness is not a fixed property of reasoning models but varies systematically with architecture, training method, and the nature of the influencing cue.
PDF01March 31, 2026