Gezamenlijk agentgeheugen en exploratieleren via nieuwigheidssignalen

Samenvatting

In open omgevingen is exploratie fundamenteel voor autonome agenten, maar huidige taalmodellen hebben hier moeite mee. Effectieve exploratie vereist geheugen, maar het bewaren van ruwe interactiegeschiedenissen is rekenkundig duur over lange trajecten. Hoewel latent geheugen een oplossing biedt om interactiegeschiedenissen te comprimeren, ontbreekt het de training ervan aan betrouwbare supervisiesignalen. Wij introduceren Joint Agent Memory and Exploration Learning (JAMEL), een raamwerk dat agentgeheugen en exploratiebeleid samen traint via nieuwheidsgedreven interactie. We observeren dat geheugen en exploratie een wederzijds afhankelijke lus vormen: aanhoudende exploratie vereist geheugen om uitgeputte gedragingen te onderscheiden van onbekende, terwijl nieuwheidszoekende interactie de supervisie biedt die nodig is om geheugen bruikbaar te maken voor toekomstige exploratie. Door gebruik te maken van deterministische en persistente nieuwheidssignalen zoals code-dekking in het GUI-domein, bieden we natuurlijke, annotatievrije supervisie voor de geheugenmodule. Empirische evaluaties tonen aan dat \ours succesvol generaliseert naar onbekende omgevingen. Zijn exploratievermogen overtreft open-gewicht-baselines en evenaart de exploratiediepte van een closed-source model, terwijl het tokenverbruik wordt verminderd. Onze code en model zijn open-source beschikbaar op https://github.com/MobileLLM/JAMEL.

English

In open-ended environments, exploration is fundamental for autonomous agents, yet current language model agents struggle with this. Effective exploration requires memory, but retaining raw interaction histories is computationally expensive over long trajectories. While latent memory offers a solution to compress interaction histories, its training lacks reliable supervisory signals. We introduce Joint Agent Memory and Exploration Learning (JAMEL), a framework that trains agentic memory and exploration policy together through novelty-driven interaction. We observe that memory and exploration form a mutually dependent loop: sustained exploration requires memory to distinguish exhausted behaviors from unseen ones, while novelty-seeking interaction provides the supervision needed to make memory useful for future exploration. By utilizing deterministic and persistent novelty signals such as code coverage in the GUI domain, we provide natural, annotation-free supervision for the memory module. Empirical evaluations demonstrate that \ours successfully generalizes to unseen environments. Its exploration capability outperforms open-weight baselines and rivals the exploration depth of a closed-source model while reducing token consumption. Our code and model are open-sourced at https://github.com/MobileLLM/JAMEL.