Aprendizaje Conjunto de Memoria y Exploración del Agente mediante Señales de Novedad

Resumen

En entornos abiertos, la exploración es fundamental para los agentes autónomos, pero los agentes actuales basados en modelos de lenguaje enfrentan dificultades con esto. La exploración efectiva requiere memoria, pero retener historiales de interacción sin procesar es computacionalmente costoso en trayectorias largas. Si bien la memoria latente ofrece una solución para comprimir los historiales de interacción, su entrenamiento carece de señales de supervisión fiables. Presentamos Joint Agent Memory and Exploration Learning (JAMEL), un marco que entrena la memoria del agente y la política de exploración de manera conjunta mediante interacción impulsada por la novedad. Observamos que la memoria y la exploración forman un bucle de dependencia mutua: la exploración sostenida requiere memoria para distinguir comportamientos ya realizados de aquellos no vistos, mientras que la interacción en busca de novedad proporciona la supervisión necesaria para que la memoria sea útil en exploraciones futuras. Al utilizar señales de novedad deterministas y persistentes, como la cobertura de código en el dominio de la interfaz gráfica de usuario, proporcionamos una supervisión natural y sin anotaciones para el módulo de memoria. Las evaluaciones empíricas demuestran que \ours se generaliza con éxito a entornos no vistos. Su capacidad de exploración supera a las líneas base de pesos abiertos y rivaliza con la profundidad de exploración de un modelo de código cerrado, reduciendo el consumo de tokens. Nuestro código y modelo son de código abierto en https://github.com/MobileLLM/JAMEL.

English

In open-ended environments, exploration is fundamental for autonomous agents, yet current language model agents struggle with this. Effective exploration requires memory, but retaining raw interaction histories is computationally expensive over long trajectories. While latent memory offers a solution to compress interaction histories, its training lacks reliable supervisory signals. We introduce Joint Agent Memory and Exploration Learning (JAMEL), a framework that trains agentic memory and exploration policy together through novelty-driven interaction. We observe that memory and exploration form a mutually dependent loop: sustained exploration requires memory to distinguish exhausted behaviors from unseen ones, while novelty-seeking interaction provides the supervision needed to make memory useful for future exploration. By utilizing deterministic and persistent novelty signals such as code coverage in the GUI domain, we provide natural, annotation-free supervision for the memory module. Empirical evaluations demonstrate that \ours successfully generalizes to unseen environments. Its exploration capability outperforms open-weight baselines and rivals the exploration depth of a closed-source model while reducing token consumption. Our code and model are open-sourced at https://github.com/MobileLLM/JAMEL.