SAM : Mémoire Adaptative à l’État pour Agent de Raisonnement à Long Horizon

Résumé

Le raisonnement agentique à long horizon nécessite que les grands modèles de langage agissent sur de longues historiques d'interaction contenant des pensées, des appels d'outils, des observations et des conclusions partielles. Le défi n'est pas seulement que ces historiques s'allongent, mais que les informations nécessaires à la décision courante peuvent être dispersées à travers des étapes éloignées et ne devenir pertinentes que plus tard. Les approches existantes traitent cette difficulté en tronquant l'historique d'interaction, en le compressant en des substituts plus courts, ou en récupérant des parties sélectionnées pour les réutiliser, mais elles ne modélisent pas explicitement comment l'accès à l'interaction passée devrait s'adapter à l'état évolutif de l'agent. Nous formulons plutôt le raisonnement à long horizon comme un problème de mémoire adaptative à l'état. À cette fin, nous proposons State-Adaptive Memory~(SAM), un cadre autonome qui consolide l'interaction en cours en indices de mémoire compacts tout en préservant les pages brutes de trajectoire pour un rappel piloté par l'intention. Ces indices ne sont pas considérés comme des remplacements de l'historique ; ils servent plutôt de poignées légères qui permettent à l'agent de reconstruire des informations temporellement distantes selon ses besoins actuels, sans réentraîner le modèle sous-jacent. Nous optimisons en outre le module de mémoire par supervision guidée par des experts et apprentissage par renforcement, en l'alignant sur l'utilité au niveau de la trajectoire. Sur BrowseComp, BrowseComp-ZH, WideSearch et HLE, SAM surpasse systématiquement les références solides sur divers modèles d'agents de base. Nos résultats suggèrent que la modélisation explicite de la mémoire offre une base simple et efficace pour le raisonnement agentique à long horizon.

English

Long-horizon agentic reasoning requires large language models to act over long interaction histories containing thoughts, tool calls, observations, and partial conclusions. The challenge is not merely that these histories grow long, but that information needed for the current decision may be scattered across distant steps and only become relevant later. Existing approaches address this difficulty by truncating the interaction history, compressing it into shorter surrogates, or retrieving selected parts of it for reuse, but they do not explicitly model how access to past interaction should adapt to the agent's evolving state. We instead cast long-horizon reasoning as a problem of state-adaptive memory. To this end, we propose State-Adaptive Memory~(SAM), a standalone framework that consolidates ongoing interaction into compact memory cues while preserving raw trajectory pages for intent-driven recall. These cues are not treated as replacements for history; rather, they serve as lightweight handles that allow the agent to reconstruct temporally distant information according to its current needs, without retraining the underlying backbone. We further optimize the memory module through expert-guided supervision and reinforcement learning, aligning it with trajectory-level utility. Across BrowseComp, BrowseComp-ZH, WideSearch, and HLE, SAM consistently outperforms strong baselines over diverse agent backbones. Our results suggest that explicit memory modeling provides a simple and effective foundation for long-horizon agentic reasoning.