SAM: Адаптивная к состоянию память для агента долгосрочного рассуждения

Аннотация

Долгосрочное агентное рассуждение требует от больших языковых моделей работы с длинными историями взаимодействий, содержащими мысли, вызовы инструментов, наблюдения и частичные выводы. Проблема не только в том, что эти истории становятся длинными, но и в том, что информация, необходимая для текущего решения, может быть разбросана по удалённым шагам и становиться актуальной лишь впоследствии. Существующие подходы пытаются решить эту трудность путём усечения истории взаимодействия, сжатия её в более короткие суррогаты или извлечения отдельных частей для повторного использования, однако они не моделируют явным образом то, как доступ к прошлым взаимодействиям должен адаптироваться к изменяющемуся состоянию агента. Вместо этого мы рассматриваем долгосрочное рассуждение как проблему адаптивной к состоянию памяти. С этой целью мы предлагаем State-Adaptive Memory (SAM) — автономную структуру, которая консолидирует текущее взаимодействие в компактные сигналы памяти, сохраняя при этом страницы необработанных траекторий для извлечения на основе намерений. Эти сигналы не рассматриваются как замена истории; скорее, они служат лёгковесными дескрипторами, позволяющими агенту реконструировать информацию, отдалённую во времени, в соответствии с текущими потребностями, без необходимости переобучения базовой основы. Мы дополнительно оптимизируем модуль памяти с помощью экспертного руководства и обучения с подкреплением, согласовывая его с полезностью на уровне траектории. На наборах данных BrowseComp, BrowseComp-ZH, WideSearch и HLE SAM последовательно превосходит сильные базовые модели при различных агентных основах. Наши результаты показывают, что явное моделирование памяти представляет собой простую и эффективную основу для долгосрочного агентного рассуждения.

English

Long-horizon agentic reasoning requires large language models to act over long interaction histories containing thoughts, tool calls, observations, and partial conclusions. The challenge is not merely that these histories grow long, but that information needed for the current decision may be scattered across distant steps and only become relevant later. Existing approaches address this difficulty by truncating the interaction history, compressing it into shorter surrogates, or retrieving selected parts of it for reuse, but they do not explicitly model how access to past interaction should adapt to the agent's evolving state. We instead cast long-horizon reasoning as a problem of state-adaptive memory. To this end, we propose State-Adaptive Memory~(SAM), a standalone framework that consolidates ongoing interaction into compact memory cues while preserving raw trajectory pages for intent-driven recall. These cues are not treated as replacements for history; rather, they serve as lightweight handles that allow the agent to reconstruct temporally distant information according to its current needs, without retraining the underlying backbone. We further optimize the memory module through expert-guided supervision and reinforcement learning, aligning it with trajectory-level utility. Across BrowseComp, BrowseComp-ZH, WideSearch, and HLE, SAM consistently outperforms strong baselines over diverse agent backbones. Our results suggest that explicit memory modeling provides a simple and effective foundation for long-horizon agentic reasoning.