PEAM: Параметрическая память воплощённого агента через контрастную интернализацию опыта в Minecraft

Аннотация

Мы представляем PEAM — фреймворк параметрической воплощённой памяти агента (Parametric Embodied Agent Memory) для Minecraft, который трансформирует память агента из извлечения во время инференса в параметрически встроенные навыки, интернализируемые через опыт. PEAM объединяет медленный deliberative-LLM для открытого рассуждения с быстрым параметрическим модулем для рефлекторного выполнения консолидированных навыков. Быстрый модуль представляет собой мультимодальную архитектуру LoRA на основе смеси экспертов (Mixture-of-Experts) с физически изолированными адаптерами для каждой категории, что обеспечивает непрерывное обучение на уровне параметров без катастрофического забывания. Мы рассматриваем неудачу как первостепенный обучающий сигнал: пары «неудача–коррекция» интернализируются через совместную целевую функцию поведенческого клонирования и контрастивного обучения, так что агент узнаёт не только успешные действия, но и то, чем скорректированные действия отличаются от неудачных. Для управления консолидацией PEAM вводит оценку пригодности к параметризации (parameterization-worthiness score), определяющую, какой опыт следует интернализировать, и механизм самоинициируемой консолидации без масштабирования (scale-free self-triggered consolidation), решающий, когда проводить интернализацию без ручной настройки порогов под конкретные задачи. Благодаря этому агент становится саморазвивающимся, а триггер переносится между распределениями задач без перенастройки. Эксперименты в Minecraft показывают, что PEAM улучшает производительность на долгосрочных задачах, снижает забывание ранее консолидированных навыков и повышает эффективность параметрического подхода по сравнению с извлечением как для воплощённых агентов на основе поиска, так и для вариантов параметрической памяти.

English

We present PEAM, a Parametric Embodied Agent Memory framework in Minecraft that transforms agent memory from inference-time retrieval into parameter-resident skills internalized through experience. PEAM pairs a slow deliberative LLM for open-ended reasoning with a fast parametric module for reflexive execution of consolidated skills. The fast module is a multimodal Mixture-of-Experts LoRA architecture with per-category physically isolated adapters, enabling parameter-level continual learning without catastrophic forgetting. We treat failure as a first-class training signal: failure--correction trajectory pairs are internalized through a joint behavioral-cloning and contrastive objective, so the agent learns not only what succeeds but also how corrected actions differ from failed ones. To govern consolidation, PEAM introduces a parameterization-worthiness score for deciding which experience should be internalized, and a scale-free self-triggered consolidation mechanism for deciding when to internalize without task-specific hand-tuned thresholds, making the agent self-evolving as the trigger transfers across task distributions without re-tuning. Experiments in Minecraft show that PEAM improves long-horizon task performance, mitigates forgetting on previously consolidated skills, and improves parametric-versus-retrieval efficiency over retrieval-based embodied agents and parametric memory variants.