PEAM: Parametrisch belichaamd agentgeheugen door contrastieve internalisatie van ervaring in Minecraft

Samenvatting

We presenteren PEAM, een Parametrisch Embodied Agent Geheugenframework in Minecraft dat agentgeheugen transformeert van inferentie-tijd ophalen naar parameter-residente vaardigheden die door ervaring zijn geïnternaliseerd. PEAM koppelt een trage deliberatieve LLM voor open-ended redeneren aan een snelle parametrische module voor reflexieve uitvoering van geconsolideerde vaardigheden. De snelle module is een multimodale Mixture-of-Experts LoRA-architectuur met per-categorie fysiek geïsoleerde adapters, wat parametrische continue learning mogelijk maakt zonder catastrofaal vergeten. We behandelen falen als een eersteklas trainingssignaal: falen-correctie trajectparen worden geïnternaliseerd via een gezamenlijk gedragsklonen en contrastief doel, zodat de agent niet alleen leert wat succesvol is, maar ook hoe gecorrigeerde acties verschillen van mislukte. Om consolidatie te sturen introduceert PEAM een parameterisatie-waardigheidsscore om te bepalen welke ervaring geïnternaliseerd moet worden, en een schaalvrij zelfgetriggerd consolidatiemechanisme om te bepalen wanneer te internaliseren zonder taakspecifieke handmatig afgestelde drempels, waardoor de agent zichzelf evolueert terwijl de trigger overdraagt over taakverdelingen zonder herinstelling. Experimenten in Minecraft tonen aan dat PEAM de prestaties bij langetermijntaken verbetert, het vergeten van eerder geconsolideerde vaardigheden vermindert, en de parametrische-versus-ophaal-efficiëntie verbetert ten opzichte van op ophalen gebaseerde embodied agents en parametrische geheugenvarianten.

English

We present PEAM, a Parametric Embodied Agent Memory framework in Minecraft that transforms agent memory from inference-time retrieval into parameter-resident skills internalized through experience. PEAM pairs a slow deliberative LLM for open-ended reasoning with a fast parametric module for reflexive execution of consolidated skills. The fast module is a multimodal Mixture-of-Experts LoRA architecture with per-category physically isolated adapters, enabling parameter-level continual learning without catastrophic forgetting. We treat failure as a first-class training signal: failure--correction trajectory pairs are internalized through a joint behavioral-cloning and contrastive objective, so the agent learns not only what succeeds but also how corrected actions differ from failed ones. To govern consolidation, PEAM introduces a parameterization-worthiness score for deciding which experience should be internalized, and a scale-free self-triggered consolidation mechanism for deciding when to internalize without task-specific hand-tuned thresholds, making the agent self-evolving as the trigger transfers across task distributions without re-tuning. Experiments in Minecraft show that PEAM improves long-horizon task performance, mitigates forgetting on previously consolidated skills, and improves parametric-versus-retrieval efficiency over retrieval-based embodied agents and parametric memory variants.