SAM: Toestandsadaptief Geheugen voor Lange-Horizon Redeneeragent

Samenvatting

Agentisch redeneren over lange tijdshorizonten vereist dat grote taalmodellen handelen op basis van lange interactiegeschiedenissen met gedachten, toolaanroepen, observaties en gedeeltelijke conclusies. De uitdaging is niet alleen dat deze geschiedenissen lang worden, maar dat informatie die nodig is voor de huidige beslissing verspreid kan zijn over verre stappen en pas later relevant wordt. Bestaande benaderingen pakken deze moeilijkheid aan door de interactiegeschiedenis in te korten, te comprimeren tot kortere surrogaten, of geselecteerde delen ervan op te halen voor hergebruik, maar zij modelleren niet expliciet hoe de toegang tot eerdere interactie zich moet aanpassen aan de veranderende toestand van de agent. Wij beschouwen redeneren over lange tijdshorizonten daarentegen als een probleem van toestandsadaptief geheugen. Daartoe stellen wij State-Adaptive Memory (SAM) voor, een zelfstandig raamwerk dat lopende interactie consolideert in compacte geheugenhints, terwijl ruwe trajectpagina's behouden blijven voor intentiegedreven terugroeping. Deze hints worden niet behandeld als vervanging van de geschiedenis; zij dienen eerder als lichtgewicht handvatten waarmee de agent tijdelijk verre informatie kan reconstrueren op basis van zijn huidige behoeften, zonder de onderliggende backbone opnieuw te trainen. Wij optimaliseren de geheugenmodule verder door middel van expertgestuurde supervisie en reinforcement learning, en stemmen deze af op het nut op trajectniveau. Op BrowseComp, BrowseComp-ZH, WideSearch en HLE presteert SAM consequent beter dan sterke baselines over diverse agent-backbones. Onze resultaten suggereren dat expliciete geheugenmodellering een eenvoudige en effectieve basis biedt voor agentisch redeneren over lange tijdshorizonten.

English

Long-horizon agentic reasoning requires large language models to act over long interaction histories containing thoughts, tool calls, observations, and partial conclusions. The challenge is not merely that these histories grow long, but that information needed for the current decision may be scattered across distant steps and only become relevant later. Existing approaches address this difficulty by truncating the interaction history, compressing it into shorter surrogates, or retrieving selected parts of it for reuse, but they do not explicitly model how access to past interaction should adapt to the agent's evolving state. We instead cast long-horizon reasoning as a problem of state-adaptive memory. To this end, we propose State-Adaptive Memory~(SAM), a standalone framework that consolidates ongoing interaction into compact memory cues while preserving raw trajectory pages for intent-driven recall. These cues are not treated as replacements for history; rather, they serve as lightweight handles that allow the agent to reconstruct temporally distant information according to its current needs, without retraining the underlying backbone. We further optimize the memory module through expert-guided supervision and reinforcement learning, aligning it with trajectory-level utility. Across BrowseComp, BrowseComp-ZH, WideSearch, and HLE, SAM consistently outperforms strong baselines over diverse agent backbones. Our results suggest that explicit memory modeling provides a simple and effective foundation for long-horizon agentic reasoning.