Het monitoren van de interne monoloog: Sondetrajecten onthullen redeneerdynamiek

Samenvatting

Grote Redeneermodellen (Large Reasoning Models, LRM's) bieden nieuwe mogelijkheden voor veiligheidsmonitoring via hun Denkketen (Chain of Thought, CoT)-redenering. De Denkketen is echter niet altijd trouw aan de uiteindelijke output van het model, wat de betrouwbaarheid als monitoringinstrument ondermijnt. Om dit aan te pakken, onderzoeken we de verborgen representaties van LRM's om te bepalen of toekomstig gedrag kan worden voorspeld op basis van prompt- en Denkketenrepresentaties. Door een probe te evalueren bij elke gegenereerde token construeren we een probe-traject: de continue evolutie van de waarschijnlijkheid van een concept gedurende het redeneerproces. We ontdekken dat toekomstig modelgedrag beter te onderscheiden is wanneer het over het volledige traject wordt onderzocht dan op basis van een enkele statische voorspelling. Om deze temporele dynamiek te karakteriseren, extraheren we signaalverwerkingskenmerken die volatiliteit, trend en steady-state gedrag vastleggen, wat de scheiding van toekomstige modeltoestanden aanzienlijk verbetert. We presenteren ook twee methodologische inzichten. Ten eerste bereikt op sjablonen gebaseerde trainingsdata een bijna gelijke prestatie als dynamisch gegenereerde modelresponsies, waardoor de kostbare initiële inferentie en labeling overbodig worden. Ten tweede is de keuze van de pooling-bewerking cruciaal: gemiddelde-pooling en last-token-methoden dalen tot bijna willekeurige prestaties, terwijl max-pooling tot 95% AUROC behaalt en stabiele probe-trajecten oplevert. Met behulp van vier datasets en vier redeneermodellen op het gebied van veiligheid en wiskunde tonen we aan dat trajectkenmerken taakspecifieke dynamiek coderen die de scheidbaarheid van uitkomsten verbetert. Deze bevindingen vestigen probe-trajecten als een complementair raamwerk voor het monitoren van LRM-gedrag. Waarschuwing: Dit artikel bevat mogelijk schadelijke inhoud.

English

Large Reasoning Models (LRMs) introduce new opportunities for safety monitoring through their Chain of Thought (CoT) reasoning. However, CoT is not always faithful to the model's final output, undermining its reliability as a monitoring tool. To address this, we investigate the hidden representations of LRMs to determine whether future behavior can be predicted from prompt and CoT representations. By evaluating a probe at each generated token, we construct a probe trajectory, the continuous evolution of a concept's probability across the reasoning process. We find that future model behavior is more distinguishable when examined over the full trajectory than from a single static prediction. To characterize these temporal dynamics, we extract signal-processing features that capture volatility, trend, and steady-state behavior, significantly improving the separation of future model states. We also present two methodological insights. First, template-based training data achieves near-parity with dynamically generated model responses, eliminating the need for a costly initial inference and labeling. Second, the choice of pooling operation is critical: average-pooling and last-token methods collapse to near-random performance, while max-pooling achieves up to 95% AUROC and yields stable probe trajectories. Using four datasets and four reasoning models across the domains of safety and mathematics, we demonstrate that trajectory features encode task-specific dynamics that improve outcome separability. These findings establish probe trajectories as a complementary framework for monitoring LRM behavior. Warning: This article contains potentially harmful content.