Suivi du monologue intérieur : les trajectoires de sonde révèlent les dynamiques du raisonnement

Résumé

Les grands modèles de raisonnement (LRM) offrent de nouvelles opportunités pour la surveillance de la sécurité grâce à leur raisonnement par chaîne de pensée (CoT). Cependant, le CoT n'est pas toujours fidèle à la sortie finale du modèle, ce qui compromet sa fiabilité en tant qu'outil de surveillance. Pour y remédier, nous étudions les représentations cachées des LRM afin de déterminer si le comportement futur peut être prédit à partir des représentations de la question et du CoT. En évaluant un probe à chaque jeton généré, nous construisons une trajectoire de probe, c'est-à-dire l'évolution continue de la probabilité d'un concept tout au long du processus de raisonnement. Nous constatons que le comportement futur du modèle est plus distinctif lorsqu'il est examiné sur l'ensemble de la trajectoire plutôt qu'à partir d'une seule prédiction statique. Pour caractériser ces dynamiques temporelles, nous extrayons des caractéristiques de traitement du signal qui capturent la volatilité, la tendance et le comportement en régime permanent, améliorant ainsi significativement la séparation des états futurs du modèle. Nous présentons également deux aperçus méthodologiques. Premièrement, les données d'entraînement basées sur des templates atteignent une quasi-parité avec les réponses générées dynamiquement par le modèle, éliminant ainsi le besoin d'une inférence initiale coûteuse et d'un étiquetage. Deuxièmement, le choix de l'opération de pooling est crucial : les méthodes de moyenne-pooling et de dernier-jeton se réduisent à des performances quasi aléatoires, tandis que le max-pooling atteint jusqu'à 95 % d'AUROC et produit des trajectoires de probe stables. En utilisant quatre ensembles de données et quatre modèles de raisonnement dans les domaines de la sécurité et des mathématiques, nous démontrons que les caractéristiques de trajectoire encodent des dynamiques spécifiques aux tâches qui améliorent la séparabilité des résultats. Ces résultats établissent les trajectoires de probe comme un cadre complémentaire pour surveiller le comportement des LRM. Attention : cet article contient du contenu potentiellement dangereux.

English

Large Reasoning Models (LRMs) introduce new opportunities for safety monitoring through their Chain of Thought (CoT) reasoning. However, CoT is not always faithful to the model's final output, undermining its reliability as a monitoring tool. To address this, we investigate the hidden representations of LRMs to determine whether future behavior can be predicted from prompt and CoT representations. By evaluating a probe at each generated token, we construct a probe trajectory, the continuous evolution of a concept's probability across the reasoning process. We find that future model behavior is more distinguishable when examined over the full trajectory than from a single static prediction. To characterize these temporal dynamics, we extract signal-processing features that capture volatility, trend, and steady-state behavior, significantly improving the separation of future model states. We also present two methodological insights. First, template-based training data achieves near-parity with dynamically generated model responses, eliminating the need for a costly initial inference and labeling. Second, the choice of pooling operation is critical: average-pooling and last-token methods collapse to near-random performance, while max-pooling achieves up to 95% AUROC and yields stable probe trajectories. Using four datasets and four reasoning models across the domains of safety and mathematics, we demonstrate that trajectory features encode task-specific dynamics that improve outcome separability. These findings establish probe trajectories as a complementary framework for monitoring LRM behavior. Warning: This article contains potentially harmful content.