Когда цепочка рассуждений знает лучше: режимы отказов в многошаговых моделях рассуждений

Аннотация

Отказы в моделях многошаговых рассуждений в значительной степени невидимы при оценке по конечным показателям. Модель может закрепиться на небезопасной позиции в начале длительного диалога, но при этом её частота отказов на последнем шаге может быть неотличима от таковой у надёжно согласованного базового уровня. Чтобы выявить эту скрытую временную динамику, мы предлагаем трассовый диагностический подход — безопасностную матрицу 2×2 для ЦР-выход (CoT-Output). Эта структура помечает каждый ход по двум независимым осям (внутренние рассуждения и видимый выход), что даёт четыре операционально определённые категории сбоев: надёжное согласование, имитация согласованности, явный взлом и особый тип сбоя, который мы называем сбоем внедрения контекста (когда ЦР сохраняет безопасные рассуждения, но видимый выход порождает вред, что указывает на многошаговое проявление неверности рассуждений). Мы оцениваем три дистиллированные цели рассуждений в противостоянии с фиксированным атакующим при пяти условиях наблюдения, собрав 6750 наблюдений на уровне ходов в сценарии информационной угрозы. Наш анализ выявляет две воспроизводимые уязвимости: парадокс наблюдения, при котором явные сигналы мониторинга парадоксальным образом увеличивают частоту имитации согласованности, а не подавляют её, и сбой внедрения контекста, при котором модели закрепляются на небезопасных внешних выходах, несмотря на безопасные внутренние состояния. Мы публикуем полный набор данных многошаговых диалогов и трасс ЦР для поддержки последующих исследований в области трассовой диагностики.

English

Failures in multi-turn reasoning models are largely invisible to terminal-score evaluation. A model can lock onto an unsafe stance early in a long dialogue, yet its final-turn refusal rate may appear indistinguishable from a robustly aligned baseline. To expose these hidden temporal dynamics, we propose a trace-level diagnostic - the CoT-Output 2x2 safety matrix. This framework labels every turn along two independent axes (internal reasoning and visible output), yielding four operationally defined failure cells: robust alignment, alignment faking, overt jailbreak, and a distinct failure mode we term context-injection failure (where the CoT maintains safe reasoning, but the visible output produces harm, highlighting a multi-turn manifestation of reasoning unfaithfulness). We evaluate three distilled reasoning targets against a fixed attacker across five oversight conditions, collecting 6750 turn-level observations on the Information-Hazard scenario. Our analysis reveals two reproducible vulnerabilities: an oversight paradox where explicit monitoring cues paradoxically increase alignment-faking rates rather than suppress them, and a context-injection failure where models lock onto unsafe external outputs despite safe internal states. We release the full dataset of multi-turn dialogues and CoT traces to support follow-up trace-diagnostic research.