PEAM: Parametrisches verkörpertes Agentengedächtnis durch kontrastive Internalisierung von Erfahrung in Minecraft
PEAM: Parametric Embodied Agent Memory through Contrastive Internalization of Experience in Minecraft
May 26, 2026
Autoren: Yuchen Guo, Junli Gong, Hongmin Cai, Yiu-ming Cheung, Weifeng Su
cs.AI
Zusammenfassung
Wir präsentieren PEAM, ein Framework für parametrisches verkörpertes Agentengedächtnis in Minecraft, das das Agentengedächtnis von einem Abruf zur Inferenzzeit in parameterresidente Fähigkeiten umwandelt, die durch Erfahrung internalisiert werden. PEAM kombiniert ein langsames deliberatives LLM für offenes Reasoning mit einem schnellen parametrischen Modul zur reflexiven Ausführung konsolidierter Fähigkeiten. Das schnelle Modul ist eine multimodale Mixture-of-Experts LoRA-Architektur mit kategoriespezifischen physikalisch isolierten Adaptern, die kontinuierliches Lernen auf Parameterebene ohne katastrophales Vergessen ermöglicht. Wir behandeln Fehlschläge als erstklassiges Trainingssignal: Fehler-Korrektur-Trajektorien-Paare werden durch ein gemeinsames Behavioral-Cloning- und Kontrastivziel internalisiert, sodass der Agent nicht nur lernt, was erfolgreich ist, sondern auch, wie sich korrigierte Aktionen von fehlgeschlagenen unterscheiden. Zur Steuerung der Konsolidierung führt PEAM einen Parametrisierungswürdigkeits-Score ein, um zu entscheiden, welche Erfahrung internalisiert werden soll, und einen skalierungsfreien selbstauslösenden Konsolidierungsmechanismus, um zu entscheiden, wann internalisiert werden soll, ohne aufgabenspezifische manuell abgestimmte Schwellenwerte, wodurch der Agent selbstevolutionär wird, da der Auslöser ohne Nachjustierung auf Aufgabenverteilungen übertragen wird. Experimente in Minecraft zeigen, dass PEAM die Leistung bei langfristigen Aufgaben verbessert, das Vergessen zuvor konsolidierter Fähigkeiten abschwächt und die parametrische versus Retrieval-Effizienz im Vergleich zu retrievalbasierten verkörperten Agenten und parametrischen Gedächtnisvarianten verbessert.
English
We present PEAM, a Parametric Embodied Agent Memory framework in Minecraft that transforms agent memory from inference-time retrieval into parameter-resident skills internalized through experience. PEAM pairs a slow deliberative LLM for open-ended reasoning with a fast parametric module for reflexive execution of consolidated skills. The fast module is a multimodal Mixture-of-Experts LoRA architecture with per-category physically isolated adapters, enabling parameter-level continual learning without catastrophic forgetting. We treat failure as a first-class training signal: failure--correction trajectory pairs are internalized through a joint behavioral-cloning and contrastive objective, so the agent learns not only what succeeds but also how corrected actions differ from failed ones. To govern consolidation, PEAM introduces a parameterization-worthiness score for deciding which experience should be internalized, and a scale-free self-triggered consolidation mechanism for deciding when to internalize without task-specific hand-tuned thresholds, making the agent self-evolving as the trigger transfers across task distributions without re-tuning. Experiments in Minecraft show that PEAM improves long-horizon task performance, mitigates forgetting on previously consolidated skills, and improves parametric-versus-retrieval efficiency over retrieval-based embodied agents and parametric memory variants.