Apprentissage conjoint de la mémoire d'agent et de l'exploration via des signaux de nouveauté

Résumé

Dans des environnements ouverts, l'exploration est fondamentale pour les agents autonomes, mais les agents actuels basés sur des modèles de langage éprouvent des difficultés à cet égard. Une exploration efficace nécessite de la mémoire, mais conserver l'historique brut des interactions est coûteux en calcul sur de longues trajectoires. Bien que la mémoire latente offre une solution pour compresser les historiques d'interactions, son apprentissage manque de signaux de supervision fiables. Nous présentons Joint Agent Memory and Exploration Learning (JAMEL), un cadre qui entraîne conjointement la mémoire agentive et la politique d'exploration via une interaction basée sur la nouveauté. Nous observons que la mémoire et l'exploration forment une boucle mutuellement dépendante : une exploration soutenue nécessite de la mémoire pour distinguer les comportements épuisés des comportements inédits, tandis que l'interaction guidée par la nouveauté fournit la supervision nécessaire pour rendre la mémoire utile pour les explorations futures. En utilisant des signaux de nouveauté déterministes et persistants tels que la couverture de code dans le domaine des interfaces utilisateur graphiques (IUG), nous fournissons une supervision naturelle et sans annotation pour le module de mémoire. Les évaluations empiriques montrent que JAMEL généralise avec succès à des environnements inédits. Sa capacité d'exploration surpasse les références à poids ouverts et rivalise avec la profondeur d'exploration d'un modèle à source fermée tout en réduisant la consommation de jetons. Notre code et notre modèle sont disponibles en open source à l'adresse https://github.com/MobileLLM/JAMEL.

English

In open-ended environments, exploration is fundamental for autonomous agents, yet current language model agents struggle with this. Effective exploration requires memory, but retaining raw interaction histories is computationally expensive over long trajectories. While latent memory offers a solution to compress interaction histories, its training lacks reliable supervisory signals. We introduce Joint Agent Memory and Exploration Learning (JAMEL), a framework that trains agentic memory and exploration policy together through novelty-driven interaction. We observe that memory and exploration form a mutually dependent loop: sustained exploration requires memory to distinguish exhausted behaviors from unseen ones, while novelty-seeking interaction provides the supervision needed to make memory useful for future exploration. By utilizing deterministic and persistent novelty signals such as code coverage in the GUI domain, we provide natural, annotation-free supervision for the memory module. Empirical evaluations demonstrate that \ours successfully generalizes to unseen environments. Its exploration capability outperforms open-weight baselines and rivals the exploration depth of a closed-source model while reducing token consumption. Our code and model are open-sourced at https://github.com/MobileLLM/JAMEL.