PEAM: Memoria Paramétrica de Agente Incorporado mediante Internalización Contrastiva de la Experiencia en Minecraft

Resumen

Presentamos PEAM, un marco de memoria paramétrica para agentes encarnados en Minecraft que transforma la memoria del agente desde una recuperación en tiempo de inferencia hasta habilidades residentes en parámetros internalizadas a través de la experiencia. PEAM combina un LLM deliberativo lento para el razonamiento abierto con un módulo paramétrico rápido para la ejecución refleja de habilidades consolidadas. El módulo rápido es una arquitectura multimodal LoRA de mezcla de expertos con adaptadores físicamente aislados por categoría, lo que permite un aprendizaje continuo a nivel de parámetros sin olvido catastrófico. Tratamos el fallo como una señal de entrenamiento de primera clase: los pares de trayectorias de fallo-corrección se internalizan mediante un objetivo conjunto de clonación de comportamiento y contrastivo, de modo que el agente aprende no solo lo que tiene éxito, sino también en qué se diferencian las acciones corregidas de las fallidas. Para gobernar la consolidación, PEAM introduce una puntuación de merecimiento de parametrización para decidir qué experiencia debe internalizarse, y un mecanismo de consolidación autoactivado sin escala para decidir cuándo internalizar sin umbrales ajustados manualmente para tareas específicas, haciendo que el agente sea autoevolutivo a medida que el activador se transfiere entre distribuciones de tareas sin reajuste. Los experimentos en Minecraft muestran que PEAM mejora el rendimiento en tareas de largo plazo, mitiga el olvido de habilidades previamente consolidadas y mejora la eficiencia paramétrica frente a la recuperación en comparación con agentes encarnados basados en recuperación y variantes de memoria paramétrica.

English

We present PEAM, a Parametric Embodied Agent Memory framework in Minecraft that transforms agent memory from inference-time retrieval into parameter-resident skills internalized through experience. PEAM pairs a slow deliberative LLM for open-ended reasoning with a fast parametric module for reflexive execution of consolidated skills. The fast module is a multimodal Mixture-of-Experts LoRA architecture with per-category physically isolated adapters, enabling parameter-level continual learning without catastrophic forgetting. We treat failure as a first-class training signal: failure--correction trajectory pairs are internalized through a joint behavioral-cloning and contrastive objective, so the agent learns not only what succeeds but also how corrected actions differ from failed ones. To govern consolidation, PEAM introduces a parameterization-worthiness score for deciding which experience should be internalized, and a scale-free self-triggered consolidation mechanism for deciding when to internalize without task-specific hand-tuned thresholds, making the agent self-evolving as the trigger transfers across task distributions without re-tuning. Experiments in Minecraft show that PEAM improves long-horizon task performance, mitigates forgetting on previously consolidated skills, and improves parametric-versus-retrieval efficiency over retrieval-based embodied agents and parametric memory variants.