Überwachung des inneren Monologs: Sonden-Trajektorien offenbaren die Dynamik des Denkens

Zusammenfassung

Große Reasoning-Modelle (LRMs) eröffnen durch ihre Chain-of-Thought (CoT)-Argumentation neue Möglichkeiten für die Sicherheitsüberwachung. Allerdings ist CoT nicht immer mit der endgültigen Ausgabe des Modells konsistent, was ihre Zuverlässigkeit als Überwachungsinstrument untergräbt. Um dies zu adressieren, untersuchen wir die verborgenen Repräsentationen von LRMs, um zu bestimmen, ob zukünftiges Verhalten aus Prompt- und CoT-Repräsentationen vorhergesagt werden kann. Durch die Evaluierung einer Sonde an jedem generierten Token konstruieren wir eine Sonden-Trajektorie – die kontinuierliche Entwicklung der Wahrscheinlichkeit eines Konzepts über den Argumentationsprozess hinweg. Dabei stellen wir fest, dass zukünftiges Modellverhalten besser unterscheidbar ist, wenn es über die gesamte Trajektorie hinweg betrachtet wird, als aus einer einzigen statischen Vorhersage. Zur Charakterisierung dieser zeitlichen Dynamiken extrahieren wir signalverarbeitende Merkmale, die Volatilität, Trend und stationäres Verhalten erfassen, wodurch die Trennbarkeit zukünftiger Modellzustände erheblich verbessert wird. Wir präsentieren außerdem zwei methodische Erkenntnisse. Erstens erreichen vorlagenbasierte Trainingsdaten nahezu Gleichwertigkeit mit dynamisch generierten Modellantworten, wodurch die kostspielige initiale Inferenz und Annotation entfällt. Zweitens ist die Wahl der Pooling-Operation entscheidend: Average-Pooling- und Last-Token-Verfahren fallen auf nahezu zufällige Leistung ab, während Max-Pooling bis zu 95 % AUROC erzielt und stabile Sonden-Trajektorien liefert. Anhand von vier Datensätzen und vier Reasoning-Modellen aus den Bereichen Sicherheit und Mathematik demonstrieren wir, dass Trajektorienmerkmale aufgabenspezifische Dynamiken kodieren, die die Trennbarkeit der Ergebnisse verbessern. Diese Ergebnisse etablieren Sonden-Trajektorien als komplementären Rahmen für die Überwachung von LRM-Verhalten. Warnung: Dieser Artikel enthält potenziell schädliche Inhalte.

English

Large Reasoning Models (LRMs) introduce new opportunities for safety monitoring through their Chain of Thought (CoT) reasoning. However, CoT is not always faithful to the model's final output, undermining its reliability as a monitoring tool. To address this, we investigate the hidden representations of LRMs to determine whether future behavior can be predicted from prompt and CoT representations. By evaluating a probe at each generated token, we construct a probe trajectory, the continuous evolution of a concept's probability across the reasoning process. We find that future model behavior is more distinguishable when examined over the full trajectory than from a single static prediction. To characterize these temporal dynamics, we extract signal-processing features that capture volatility, trend, and steady-state behavior, significantly improving the separation of future model states. We also present two methodological insights. First, template-based training data achieves near-parity with dynamically generated model responses, eliminating the need for a costly initial inference and labeling. Second, the choice of pooling operation is critical: average-pooling and last-token methods collapse to near-random performance, while max-pooling achieves up to 95% AUROC and yields stable probe trajectories. Using four datasets and four reasoning models across the domains of safety and mathematics, we demonstrate that trajectory features encode task-specific dynamics that improve outcome separability. These findings establish probe trajectories as a complementary framework for monitoring LRM behavior. Warning: This article contains potentially harmful content.