SAM: Zustandsadaptives Gedächtnis für einen Agenten mit langfristigem Denkhorizont

Zusammenfassung

Langfristiges agentisches Denken erfordert, dass große Sprachmodelle über lange Interaktionsverläufe hinweg agieren, die Gedanken, Werkzeugaufrufe, Beobachtungen und Teilkonklusionen enthalten. Die Herausforderung besteht nicht nur darin, dass diese Verläufe lang werden, sondern auch darin, dass die für die aktuelle Entscheidung benötigten Informationen über entfernte Schritte verstreut sein können und erst später relevant werden. Bestehende Ansätze begegnen dieser Schwierigkeit, indem sie den Interaktionsverlauf kürzen, in kürzere Surrogate komprimieren oder ausgewählte Teile davon zur Wiederverwendung abrufen. Sie modellieren jedoch nicht explizit, wie der Zugriff auf vergangene Interaktionen an den sich entwickelnden Zustand des Agenten angepasst werden sollte. Stattdessen betrachten wir langfristiges Denken als ein Problem des zustandsadaptiven Gedächtnisses. Zu diesem Zweck schlagen wir State-Adaptive Memory (SAM) vor, ein eigenständiges Framework, das die laufende Interaktion in kompakte Gedächtnishinweise konsolidiert, während gleichzeitig die rohen Trajektorienseiten für einen absichtsgesteuerten Abruf erhalten bleiben. Diese Hinweise werden nicht als Ersatz für die Geschichte behandelt; vielmehr dienen sie als leichtgewichtige Griffe, die es dem Agenten ermöglichen, zeitlich entfernte Informationen entsprechend seinen aktuellen Bedürfnissen zu rekonstruieren, ohne das zugrundeliegende Rückgrat neu trainieren zu müssen. Wir optimieren das Gedächtnismodul weiter durch expertengeführte Überwachung und bestärkendes Lernen und richten es auf den Nutzen auf Trajektorienebene aus. In BrowseComp, BrowseComp-ZH, WideSearch und HLE übertrifft SAM konsistent starke Baselines über verschiedene Agenten-Backbones hinweg. Unsere Ergebnisse deuten darauf hin, dass explizites Gedächtnismodellieren eine einfache und effektive Grundlage für langfristiges agentisches Denken bietet.

English

Long-horizon agentic reasoning requires large language models to act over long interaction histories containing thoughts, tool calls, observations, and partial conclusions. The challenge is not merely that these histories grow long, but that information needed for the current decision may be scattered across distant steps and only become relevant later. Existing approaches address this difficulty by truncating the interaction history, compressing it into shorter surrogates, or retrieving selected parts of it for reuse, but they do not explicitly model how access to past interaction should adapt to the agent's evolving state. We instead cast long-horizon reasoning as a problem of state-adaptive memory. To this end, we propose State-Adaptive Memory~(SAM), a standalone framework that consolidates ongoing interaction into compact memory cues while preserving raw trajectory pages for intent-driven recall. These cues are not treated as replacements for history; rather, they serve as lightweight handles that allow the agent to reconstruct temporally distant information according to its current needs, without retraining the underlying backbone. We further optimize the memory module through expert-guided supervision and reinforcement learning, aligning it with trajectory-level utility. Across BrowseComp, BrowseComp-ZH, WideSearch, and HLE, SAM consistently outperforms strong baselines over diverse agent backbones. Our results suggest that explicit memory modeling provides a simple and effective foundation for long-horizon agentic reasoning.