SAM: Memória Adaptativa de Estado para Agente de Raciocínio de Longo Horizonte

Resumo

Raciocínio agêntico de longo horizonte exige que modelos de linguagem de grande escala ajam ao longo de históricos de interação extensos, contendo pensamentos, chamadas de ferramentas, observações e conclusões parciais. O desafio não está apenas no crescimento desses históricos, mas no fato de que informações necessárias para a decisão atual podem estar dispersas por etapas distantes e só se tornar relevantes posteriormente. Abordagens existentes lidam com essa dificuldade truncando o histórico de interação, comprimindo-o em substitutos mais curtos ou recuperando partes selecionadas para reutilização, mas não modelam explicitamente como o acesso às interações passadas deve se adaptar ao estado evolutivo do agente. Em vez disso, tratamos o raciocínio de longo horizonte como um problema de memória adaptativa ao estado. Para tal, propomos a Memória Adaptativa ao Estado~(SAM, do inglês *State-Adaptive Memory*), um framework independente que consolida a interação contínua em pistas de memória compactas, preservando simultaneamente páginas brutas de trajetória para recuperação orientada por intenção. Essas pistas não são tratadas como substitutas do histórico; servem, em vez disso, como identificadores leves que permitem ao agente reconstruir informações temporalmente distantes de acordo com suas necessidades atuais, sem a necessidade de retreinar o arcabouço subjacente. Otimizamos adicionalmente o módulo de memória por meio de supervisão guiada por especialistas e aprendizado por reforço, alinhando-o à utilidade em nível de trajetória. Nos benchmarks BrowseComp, BrowseComp-ZH, WideSearch e HLE, o SAM supera consistentemente linhas de base fortes em diversos backbones de agentes. Nossos resultados sugerem que a modelagem explícita de memória fornece uma base simples e eficaz para o raciocínio agêntico de longo horizonte.

English

Long-horizon agentic reasoning requires large language models to act over long interaction histories containing thoughts, tool calls, observations, and partial conclusions. The challenge is not merely that these histories grow long, but that information needed for the current decision may be scattered across distant steps and only become relevant later. Existing approaches address this difficulty by truncating the interaction history, compressing it into shorter surrogates, or retrieving selected parts of it for reuse, but they do not explicitly model how access to past interaction should adapt to the agent's evolving state. We instead cast long-horizon reasoning as a problem of state-adaptive memory. To this end, we propose State-Adaptive Memory~(SAM), a standalone framework that consolidates ongoing interaction into compact memory cues while preserving raw trajectory pages for intent-driven recall. These cues are not treated as replacements for history; rather, they serve as lightweight handles that allow the agent to reconstruct temporally distant information according to its current needs, without retraining the underlying backbone. We further optimize the memory module through expert-guided supervision and reinforcement learning, aligning it with trajectory-level utility. Across BrowseComp, BrowseComp-ZH, WideSearch, and HLE, SAM consistently outperforms strong baselines over diverse agent backbones. Our results suggest that explicit memory modeling provides a simple and effective foundation for long-horizon agentic reasoning.