Monitorización del monólogo interno: las trayectorias de las sondas revelan las dinámicas del razonamiento

Resumen

Los Modelos de Razonamiento a Gran Escala (LRMs) abren nuevas oportunidades para la monitorización de la seguridad mediante su razonamiento en Cadena de Pensamiento (CoT). Sin embargo, la CoT no siempre es fiel al resultado final del modelo, lo que socava su fiabilidad como herramienta de monitorización. Para abordar esto, investigamos las representaciones ocultas de los LRMs para determinar si el comportamiento futuro puede predecirse a partir de las representaciones de la instrucción inicial y la CoT. Al evaluar una sonda en cada token generado, construimos una trayectoria de sonda, es decir, la evolución continua de la probabilidad de un concepto a lo largo del proceso de razonamiento. Encontramos que el comportamiento futuro del modelo es más distinguible cuando se examina a lo largo de la trayectoria completa que a partir de una única predicción estática. Para caracterizar estas dinámicas temporales, extraemos características de procesamiento de señales que capturan la volatilidad, la tendencia y el comportamiento de estado estacionario, mejorando significativamente la separación de los estados futuros del modelo. También presentamos dos aportes metodológicos. Primero, los datos de entrenamiento basados en plantillas logran una paridad casi completa con las respuestas del modelo generadas dinámicamente, eliminando la necesidad de una inferencia inicial costosa y etiquetado. Segundo, la elección de la operación de pooling es crítica: los métodos de promedio-pooling y último-token colapsan a un rendimiento casi aleatorio, mientras que el max-pooling alcanza hasta un 95% de AUROC y produce trayectorias de sonda estables. Utilizando cuatro conjuntos de datos y cuatro modelos de razonamiento en los dominios de seguridad y matemáticas, demostramos que las características de las trayectorias codifican dinámicas específicas de la tarea que mejoran la separabilidad de los resultados. Estos hallazgos establecen las trayectorias de sonda como un marco complementario para monitorizar el comportamiento de los LRMs. Advertencia: Este artículo contiene contenido potencialmente dañino.

English

Large Reasoning Models (LRMs) introduce new opportunities for safety monitoring through their Chain of Thought (CoT) reasoning. However, CoT is not always faithful to the model's final output, undermining its reliability as a monitoring tool. To address this, we investigate the hidden representations of LRMs to determine whether future behavior can be predicted from prompt and CoT representations. By evaluating a probe at each generated token, we construct a probe trajectory, the continuous evolution of a concept's probability across the reasoning process. We find that future model behavior is more distinguishable when examined over the full trajectory than from a single static prediction. To characterize these temporal dynamics, we extract signal-processing features that capture volatility, trend, and steady-state behavior, significantly improving the separation of future model states. We also present two methodological insights. First, template-based training data achieves near-parity with dynamically generated model responses, eliminating the need for a costly initial inference and labeling. Second, the choice of pooling operation is critical: average-pooling and last-token methods collapse to near-random performance, while max-pooling achieves up to 95% AUROC and yields stable probe trajectories. Using four datasets and four reasoning models across the domains of safety and mathematics, we demonstrate that trajectory features encode task-specific dynamics that improve outcome separability. These findings establish probe trajectories as a complementary framework for monitoring LRM behavior. Warning: This article contains potentially harmful content.