Het voorspellen van toekomstig gedrag als een leertaak

Samenvatting

Vertrouwen in een AI-systeem wordt vaak verankerd door uitleg over hoe het werkt, die men vervolgens gebruikt om zijn gedrag op nieuwe invoergegevens te voorspellen. Voor grote redeneermodellen (LRM's) is deze conventionele weg bijzonder moeilijk te volgen: uitlegmethoden voor enkele token-generaties generaliseren niet van nature naar lange trajecten, en de trajecten zelf zijn vaak niet getrouw wanneer ze als natuurlijke taal worden gelezen. Wij stellen een alternatief voor dat de uitlegstap omzeilt: behandel gedragsvoorspelling als een leerbare taak en train Gedragsvoorspellers die op een enkel redeneertraject werken om dezelfde voorspellingen te maken die men normaliter van een uitleg zou verwachten. De trainingsgegevens van de voorspeller worden verkregen door het LRM te bevragen zonder menselijke annotatie, en de inferentie wordt uitgevoerd in één enkele forwardpass. We implementeren deze benadering op twee taken: hoe waarschijnlijk het is dat het LRM zijn antwoord herhaalt bij herhaalde runs, en hoe het verwijderen van delen van de invoer het antwoord verandert. We evalueren deze benadering op beide taken over drie diverse redeneerdatasets en vinden dat getrainde Gedragsvoorspellers nauwkeuriger zijn dan GPT-5.4 en Claude Opus-4.6 die dezelfde trajecten lezen als naïeve lezers, tegen een klein deel van hun inferentiekosten. We vinden dat het end-to-end finetunen van de backbone en het initialiseren ervan vanuit het doel-LRM elk noodzakelijk zijn voor sterke prestaties. Deze resultaten tonen aan dat het redeneertraject informatie draagt over het toekomstige gedrag van het LRM die verder gaat dan wat naïeve lezing overbrengt.

English

Trust in an AI system is often anchored by explanations of how it works, which one then uses to forecast its behavior on new inputs. For large reasoning models (LRMs), this conventional route is particularly difficult to follow: explanation methods for single token generations do not naturally generalize to long trajectories, and the trajectories themselves are often not faithful when read as natural language. We propose an alternative that bypasses the explanation step: treat behavior forecasting as a learnable task and train Behavior Forecasters that operates on a single reasoning trajectory to make the same forecasts one would typically seek from an explanation. The forecaster's training data is obtained by querying the LRM with no human annotation, and its inference is done in a single forward pass. We instantiate this approach on two tasks: how likely the LRM is to repeat its answer on re-runs, and how removing parts of the input changes its answer. We evaluate this approach on both tasks across three diverse reasoning datasets and find that trained Behavior Forecasters are more accurate than GPT-5.4 and Claude Opus-4.6 reading the same trajectories as naive readers, at a small fraction of their inference cost. We find that fine-tuning the backbone end-to-end and initializing it from the target LRM are each necessary for strong performance. These results show that the reasoning trajectory carries information about the LRM's future behavior that goes beyond what naive reading conveys.