PEAM: Memória Paramétrica de Agente Incorporado através da Internalização Contrastiva da Experiência em Minecraft

Resumo

Apresentamos o PEAM, um framework de Memória de Agente Incorporado Paramétrico no Minecraft que transforma a memória do agente de recuperação em tempo de inferência para habilidades residentes em parâmetros, internalizadas através da experiência. O PEAM combina um LLM deliberativo lento para raciocínio aberto com um módulo paramétrico rápido para execução reflexa de habilidades consolidadas. O módulo rápido é uma arquitetura LoRA multimodal de Mistura de Especialistas com adaptadores fisicamente isolados por categoria, permitindo aprendizado contínuo em nível de parâmetro sem esquecimento catastrófico. Tratamos a falha como um sinal de treinamento de primeira classe: pares de trajetória falha–correção são internalizados por meio de um objetivo conjunto de clonagem comportamental e contrastivo, de modo que o agente aprende não apenas o que funciona, mas também como as ações corrigidas diferem das falhas. Para governar a consolidação, o PEAM introduz uma pontuação de merecimento de parametrização para decidir qual experiência deve ser internalizada, e um mecanismo de consolidação autoacionado sem escala para decidir quando internalizar, sem limiares ajustados manualmente específicos da tarefa, tornando o agente autoevolutivo à medida que o gatilho é transferido entre distribuições de tarefas sem reajuste. Experimentos no Minecraft mostram que o PEAM melhora o desempenho em tarefas de longo horizonte, mitiga o esquecimento em habilidades previamente consolidadas e melhora a eficiência paramétrica versus recuperação em comparação com agentes incorporados baseados em recuperação e variantes de memória paramétrica.

English

We present PEAM, a Parametric Embodied Agent Memory framework in Minecraft that transforms agent memory from inference-time retrieval into parameter-resident skills internalized through experience. PEAM pairs a slow deliberative LLM for open-ended reasoning with a fast parametric module for reflexive execution of consolidated skills. The fast module is a multimodal Mixture-of-Experts LoRA architecture with per-category physically isolated adapters, enabling parameter-level continual learning without catastrophic forgetting. We treat failure as a first-class training signal: failure--correction trajectory pairs are internalized through a joint behavioral-cloning and contrastive objective, so the agent learns not only what succeeds but also how corrected actions differ from failed ones. To govern consolidation, PEAM introduces a parameterization-worthiness score for deciding which experience should be internalized, and a scale-free self-triggered consolidation mechanism for deciding when to internalize without task-specific hand-tuned thresholds, making the agent self-evolving as the trigger transfers across task distributions without re-tuning. Experiments in Minecraft show that PEAM improves long-horizon task performance, mitigates forgetting on previously consolidated skills, and improves parametric-versus-retrieval efficiency over retrieval-based embodied agents and parametric memory variants.