Monitorando o monólogo interno: trajetórias de sondas revelam dinâmicas do raciocínio

Resumo

Modelos de Raciocínio em Grande Escala (LRMs) introduzem novas oportunidades para monitoramento de segurança por meio de seu raciocínio em Cadeia de Pensamento (CoT). No entanto, a CoT nem sempre é fiel à saída final do modelo, comprometendo sua confiabilidade como ferramenta de monitoramento. Para lidar com isso, investigamos as representações ocultas dos LRMs para determinar se o comportamento futuro pode ser previsto a partir das representações do prompt e da CoT. Ao avaliar uma sonda a cada token gerado, construímos uma trajetória de sonda, a evolução contínua da probabilidade de um conceito ao longo do processo de raciocínio. Descobrimos que o comportamento futuro do modelo é mais distinguível quando examinado ao longo da trajetória completa do que a partir de uma única previsão estática. Para caracterizar essas dinâmicas temporais, extraímos características de processamento de sinais que capturam volatilidade, tendência e comportamento em estado estacionário, melhorando significativamente a separação dos estados futuros do modelo. Também apresentamos duas contribuições metodológicas. Primeiro, dados de treinamento baseados em templates alcançam paridade quase total com respostas geradas dinamicamente pelo modelo, eliminando a necessidade de inferência e rotulagem iniciais custosas. Segundo, a escolha da operação de pooling é crítica: os métodos de average-pooling e last-token colapsam para um desempenho quase aleatório, enquanto o max-pooling atinge até 95% de AUROC e produz trajetórias de sonda estáveis. Usando quatro conjuntos de dados e quatro modelos de raciocínio nos domínios de segurança e matemática, demonstramos que as características da trajetória codificam dinâmicas específicas da tarefa que melhoram a separabilidade dos resultados. Essas descobertas estabelecem as trajetórias de sonda como uma estrutura complementar para monitorar o comportamento dos LRMs. Aviso: Este artigo contém conteúdo potencialmente prejudicial.

English

Large Reasoning Models (LRMs) introduce new opportunities for safety monitoring through their Chain of Thought (CoT) reasoning. However, CoT is not always faithful to the model's final output, undermining its reliability as a monitoring tool. To address this, we investigate the hidden representations of LRMs to determine whether future behavior can be predicted from prompt and CoT representations. By evaluating a probe at each generated token, we construct a probe trajectory, the continuous evolution of a concept's probability across the reasoning process. We find that future model behavior is more distinguishable when examined over the full trajectory than from a single static prediction. To characterize these temporal dynamics, we extract signal-processing features that capture volatility, trend, and steady-state behavior, significantly improving the separation of future model states. We also present two methodological insights. First, template-based training data achieves near-parity with dynamically generated model responses, eliminating the need for a costly initial inference and labeling. Second, the choice of pooling operation is critical: average-pooling and last-token methods collapse to near-random performance, while max-pooling achieves up to 95% AUROC and yields stable probe trajectories. Using four datasets and four reasoning models across the domains of safety and mathematics, we demonstrate that trajectory features encode task-specific dynamics that improve outcome separability. These findings establish probe trajectories as a complementary framework for monitoring LRM behavior. Warning: This article contains potentially harmful content.