Совместное обучение памяти агента и исследования с помощью сигналов новизны

Аннотация

В условиях открытых сред исследование является фундаментальным для автономных агентов, однако современные агенты на языковых моделях испытывают с этим трудности. Эффективное исследование требует памяти, но сохранение необработанной истории взаимодействий становится вычислительно затратным на длинных траекториях. Хотя латентная память предлагает решение для сжатия истории взаимодействий, её обучение лишено надёжных сигналов контроля. Мы представляем JAMEL (Joint Agent Memory and Exploration Learning) — фреймворк, который обучает агентскую память и политику исследования совместно, используя взаимодействие, основанное на новизне. Мы наблюдаем, что память и исследование образуют взаимозависимый цикл: устойчивое исследование требует памяти для различения исчерпанных и неизведанных поведений, а поиск новизны в ходе взаимодействия обеспечивает контроль, необходимый для того, чтобы память была полезна для будущих исследований. Используя детерминированные и постоянные сигналы новизны, такие как покрытие кода в домене графического интерфейса, мы обеспечиваем естественный контроль без разметки для модуля памяти. Эмпирические оценки показывают, что \ours успешно обобщается на незнакомые среды. Его способность к исследованию превосходит модели-бейзлайны с открытыми весами и сопоставима с глубиной исследования проприетарной модели, при этом сокращая потребление токенов. Наш код и модель опубликованы с открытым исходным кодом по адресу https://github.com/MobileLLM/JAMEL.

English

In open-ended environments, exploration is fundamental for autonomous agents, yet current language model agents struggle with this. Effective exploration requires memory, but retaining raw interaction histories is computationally expensive over long trajectories. While latent memory offers a solution to compress interaction histories, its training lacks reliable supervisory signals. We introduce Joint Agent Memory and Exploration Learning (JAMEL), a framework that trains agentic memory and exploration policy together through novelty-driven interaction. We observe that memory and exploration form a mutually dependent loop: sustained exploration requires memory to distinguish exhausted behaviors from unseen ones, while novelty-seeking interaction provides the supervision needed to make memory useful for future exploration. By utilizing deterministic and persistent novelty signals such as code coverage in the GUI domain, we provide natural, annotation-free supervision for the memory module. Empirical evaluations demonstrate that \ours successfully generalizes to unseen environments. Its exploration capability outperforms open-weight baselines and rivals the exploration depth of a closed-source model while reducing token consumption. Our code and model are open-sourced at https://github.com/MobileLLM/JAMEL.