Мониторинг внутреннего монолога: траектории проб раскрывают динамику рассуждений

Аннотация

Большие модели рассуждений (Large Reasoning Models, LRMs) открывают новые возможности для мониторинга безопасности благодаря своему цепочечному рассуждению (Chain of Thought, CoT). Однако CoT не всегда соответствует конечному выводу модели, что подрывает его надежность как инструмента мониторинга. Для решения этой проблемы мы исследуем скрытые представления LRM, чтобы определить, можно ли предсказать будущее поведение на основе представлений промпта и CoT. Оценивая зонд на каждом сгенерированном токене, мы строим траекторию зонда — непрерывную эволюцию вероятности концепта в процессе рассуждения. Мы обнаружили, что будущее поведение модели лучше различается при анализе полной траектории, чем по одному статическому предсказанию. Чтобы охарактеризовать эту временную динамику, мы извлекаем признаки обработки сигналов, которые отражают волатильность, тренд и установившееся поведение, что значительно улучшает разделение будущих состояний модели. Мы также представляем два методологических наблюдения. Во-первых, обучение на шаблонных данных достигает почти паритета с динамически сгенерированными ответами модели, устраняя необходимость в дорогостоящем первоначальном выводе и разметке. Во-вторых, выбор операции объединения критичен: методы среднего объединения и последнего токена снижаются до почти случайной производительности, в то время как максимальное объединение достигает AUROC до 95% и дает стабильные траектории зонда. Используя четыре набора данных и четыре модели рассуждений в областях безопасности и математики, мы демонстрируем, что признаки траектории кодируют специфическую для задачи динамику, которая улучшает разделяемость результатов. Эти результаты устанавливают траектории зонда как дополнительный фреймворк для мониторинга поведения LRM. Предупреждение: эта статья содержит потенциально вредный контент.

English

Large Reasoning Models (LRMs) introduce new opportunities for safety monitoring through their Chain of Thought (CoT) reasoning. However, CoT is not always faithful to the model's final output, undermining its reliability as a monitoring tool. To address this, we investigate the hidden representations of LRMs to determine whether future behavior can be predicted from prompt and CoT representations. By evaluating a probe at each generated token, we construct a probe trajectory, the continuous evolution of a concept's probability across the reasoning process. We find that future model behavior is more distinguishable when examined over the full trajectory than from a single static prediction. To characterize these temporal dynamics, we extract signal-processing features that capture volatility, trend, and steady-state behavior, significantly improving the separation of future model states. We also present two methodological insights. First, template-based training data achieves near-parity with dynamically generated model responses, eliminating the need for a costly initial inference and labeling. Second, the choice of pooling operation is critical: average-pooling and last-token methods collapse to near-random performance, while max-pooling achieves up to 95% AUROC and yields stable probe trajectories. Using four datasets and four reasoning models across the domains of safety and mathematics, we demonstrate that trajectory features encode task-specific dynamics that improve outcome separability. These findings establish probe trajectories as a complementary framework for monitoring LRM behavior. Warning: This article contains potentially harmful content.