PEAM : Mémoire d'agent incarné paramétrique par internalisation contrastive de l'expérience dans Minecraft

Résumé

Nous présentons PEAM, un cadre de mémoire d'agent incarné paramétrique dans Minecraft qui transforme la mémoire de l'agent, passant d'une récupération au moment de l'inférence à des compétences résidant dans les paramètres, internalisées par l'expérience. PEAM associe un LLM délibératif lent pour le raisonnement ouvert à un module paramétrique rapide pour l'exécution réflexe de compétences consolidées. Le module rapide est une architecture LoRA multimodale à mélange d'experts, dotée d'adaptateurs physiquement isolés par catégorie, permettant un apprentissage continu au niveau des paramètres sans oubli catastrophique. Nous traitons l'échec comme un signal d'apprentissage de première classe : les paires trajectoire d'échec-correction sont internalisées via un objectif conjoint de clonage comportemental et contrastif, de sorte que l'agent n'apprend pas seulement ce qui réussit, mais aussi en quoi les actions corrigées diffèrent des actions échouées. Pour régir la consolidation, PEAM introduit un score de paramétrisabilité pour décider quelle expérience doit être internalisée, ainsi qu'un mécanisme de consolidation auto-déclenché sans échelle pour décider quand internaliser, sans seuils ajustés manuellement spécifiques à chaque tâche, rendant l'agent auto-évolutif car le déclenchement se transfère entre distributions de tâches sans réglage. Les expériences dans Minecraft montrent que PEAM améliore les performances sur les tâches à long horizon, atténue l'oubli des compétences précédemment consolidées et améliore l'efficacité paramétrique par rapport à la récupération, comparé aux agents incarnés basés sur la récupération et aux variantes de mémoire paramétrique.

English

We present PEAM, a Parametric Embodied Agent Memory framework in Minecraft that transforms agent memory from inference-time retrieval into parameter-resident skills internalized through experience. PEAM pairs a slow deliberative LLM for open-ended reasoning with a fast parametric module for reflexive execution of consolidated skills. The fast module is a multimodal Mixture-of-Experts LoRA architecture with per-category physically isolated adapters, enabling parameter-level continual learning without catastrophic forgetting. We treat failure as a first-class training signal: failure--correction trajectory pairs are internalized through a joint behavioral-cloning and contrastive objective, so the agent learns not only what succeeds but also how corrected actions differ from failed ones. To govern consolidation, PEAM introduces a parameterization-worthiness score for deciding which experience should be internalized, and a scale-free self-triggered consolidation mechanism for deciding when to internalize without task-specific hand-tuned thresholds, making the agent self-evolving as the trigger transfers across task distributions without re-tuning. Experiments in Minecraft show that PEAM improves long-horizon task performance, mitigates forgetting on previously consolidated skills, and improves parametric-versus-retrieval efficiency over retrieval-based embodied agents and parametric memory variants.