SAM: Memoria Adaptativa al Estado para Agente de Razonamiento de Horizonte Largo

Resumen

El razonamiento agéntico de largo horizonte exige que los modelos de lenguaje grandes actúen sobre historiales de interacción extensos que contienen pensamientos, llamadas a herramientas, observaciones y conclusiones parciales. El desafío no radica únicamente en la longitud de dichos historiales, sino en que la información necesaria para la decisión actual puede estar dispersa en pasos distantes y solo volverse relevante después. Los enfoques existentes abordan esta dificultad truncando el historial de interacción, comprimiéndolo en sustitutos más cortos o recuperando partes seleccionadas para su reutilización, pero no modelan explícitamente cómo el acceso a interacciones pasadas debería adaptarse al estado cambiante del agente. En cambio, planteamos el razonamiento de largo horizonte como un problema de memoria adaptativa al estado. Con este fin, proponemos State-Adaptive Memory (SAM), un marco independiente que consolida la interacción en curso en indicios de memoria compactos, a la vez que preserva páginas de trayectoria sin procesar para su recuperación impulsada por intenciones. Estos indicios no se tratan como sustitutos del historial; más bien, actúan como asideros ligeros que permiten al agente reconstruir información temporalmente distante según sus necesidades actuales, sin necesidad de reentrenar la arquitectura subyacente. Optimizamos además el módulo de memoria mediante supervisión guiada por expertos y aprendizaje por refuerzo, alineándolo con la utilidad a nivel de trayectoria. En BrowseComp, BrowseComp-ZH, WideSearch y HLE, SAM supera de manera consistente a líneas base sólidas sobre diversos backbones de agentes. Nuestros resultados sugieren que el modelado explícito de la memoria constituye una base simple y efectiva para el razonamiento agéntico de largo horizonte.

English

Long-horizon agentic reasoning requires large language models to act over long interaction histories containing thoughts, tool calls, observations, and partial conclusions. The challenge is not merely that these histories grow long, but that information needed for the current decision may be scattered across distant steps and only become relevant later. Existing approaches address this difficulty by truncating the interaction history, compressing it into shorter surrogates, or retrieving selected parts of it for reuse, but they do not explicitly model how access to past interaction should adapt to the agent's evolving state. We instead cast long-horizon reasoning as a problem of state-adaptive memory. To this end, we propose State-Adaptive Memory~(SAM), a standalone framework that consolidates ongoing interaction into compact memory cues while preserving raw trajectory pages for intent-driven recall. These cues are not treated as replacements for history; rather, they serve as lightweight handles that allow the agent to reconstruct temporally distant information according to its current needs, without retraining the underlying backbone. We further optimize the memory module through expert-guided supervision and reinforcement learning, aligning it with trajectory-level utility. Across BrowseComp, BrowseComp-ZH, WideSearch, and HLE, SAM consistently outperforms strong baselines over diverse agent backbones. Our results suggest that explicit memory modeling provides a simple and effective foundation for long-horizon agentic reasoning.