Aprendizagem Conjunta de Memória do Agente e Exploração via Sinais de Novidade

Resumo

Em ambientes abertos, a exploração é fundamental para agentes autônomos, mas os agentes atuais baseados em modelos de linguagem têm dificuldade com isso. Uma exploração eficaz requer memória, porém reter históricos brutos de interação é computacionalmente caro ao longo de trajetórias longas. Embora a memória latente ofereça uma solução para comprimir históricos de interação, seu treinamento carece de sinais de supervisão confiáveis. Apresentamos o Joint Agent Memory and Exploration Learning (JAMEL), uma estrutura que treina conjuntamente a memória do agente e a política de exploração por meio de interação orientada por novidade. Observamos que memória e exploração formam um ciclo mutuamente dependente: a exploração sustentada requer memória para distinguir comportamentos esgotados dos não vistos, enquanto a interação em busca de novidade fornece a supervisão necessária para tornar a memória útil para explorações futuras. Ao utilizar sinais de novidade determinísticos e persistentes, como cobertura de código no domínio de GUI, fornecemos supervisão natural e sem anotação para o módulo de memória. Avaliações empíricas demonstram que o \ours generaliza com sucesso para ambientes não vistos. Sua capacidade de exploração supera as linhas de base de pesos abertos e rivaliza com a profundidade de exploração de um modelo de código fechado, ao mesmo tempo que reduz o consumo de tokens. Nosso código e modelo estão disponíveis como código aberto em https://github.com/MobileLLM/JAMEL.

English

In open-ended environments, exploration is fundamental for autonomous agents, yet current language model agents struggle with this. Effective exploration requires memory, but retaining raw interaction histories is computationally expensive over long trajectories. While latent memory offers a solution to compress interaction histories, its training lacks reliable supervisory signals. We introduce Joint Agent Memory and Exploration Learning (JAMEL), a framework that trains agentic memory and exploration policy together through novelty-driven interaction. We observe that memory and exploration form a mutually dependent loop: sustained exploration requires memory to distinguish exhausted behaviors from unseen ones, while novelty-seeking interaction provides the supervision needed to make memory useful for future exploration. By utilizing deterministic and persistent novelty signals such as code coverage in the GUI domain, we provide natural, annotation-free supervision for the memory module. Empirical evaluations demonstrate that \ours successfully generalizes to unseen environments. Its exploration capability outperforms open-weight baselines and rivals the exploration depth of a closed-source model while reducing token consumption. Our code and model are open-sourced at https://github.com/MobileLLM/JAMEL.