Transferencia de Experiencia para Agentes de LLM Multimodales en el Juego Minecraft

Resumen

Los agentes de LLM multimodales que operan en entornos de juego complejos deben reutilizar continuamente experiencias pasadas para resolver nuevas tareas de manera eficiente. En este trabajo, proponemos Echo, un marco de memoria orientado a la transferencia que permite a los agentes derivar conocimiento accionable de interacciones previas, en lugar de tratar la memoria como un repositorio pasivo de registros estáticos. Para hacer explícita la transferencia, Echo descompone el conocimiento reutilizable en cinco dimensiones: estructura, atributo, proceso, función e interacción. Esta formulación permite al agente identificar patrones recurrentes compartidos entre diferentes tareas e inferir qué experiencia previa sigue siendo aplicable en nuevas situaciones. Basándose en esta formulación, Echo aprovecha el Aprendizaje por Analogía en Contexto (ICAL) para recuperar experiencias relevantes y adaptarlas a tareas no vistas mediante ejemplos contextuales. Los experimentos en Minecraft demuestran que, bajo un entorno de aprendizaje desde cero, Echo logra una aceleración de 1.3x a 1.7x en tareas de desbloqueo de objetos. Además, Echo exhibe un fenómeno de desbloqueo en cadena de tipo explosivo, liberando rápidamente múltiples elementos similares en un intervalo corto de tiempo tras adquirir experiencia transferible. Estos resultados sugieren que la transferencia de experiencia es una dirección prometedora para mejorar la eficiencia y adaptabilidad de los agentes de LLM multimodales en entornos interactivos complejos.

English

Multimodal LLM agents operating in complex game environments must continually reuse past experience to solve new tasks efficiently. In this work, we propose Echo, a transfer-oriented memory framework that enables agents to derive actionable knowledge from prior interactions rather than treating memory as a passive repository of static records. To make transfer explicit, Echo decomposes reusable knowledge into five dimensions: structure, attribute, process, function, and interaction. This formulation allows the agent to identify recurring patterns shared across different tasks and infer what prior experience remains applicable in new situations. Building on this formulation, Echo leverages In-Context Analogy Learning (ICAL) to retrieve relevant experiences and adapt them to unseen tasks through contextual examples. Experiments in Minecraft show that, under a from-scratch learning setting, Echo achieves a 1.3x to 1.7x speed-up on object-unlocking tasks. Moreover, Echo exhibits a burst-like chain-unlocking phenomenon, rapidly unlocking multiple similar items within a short time interval after acquiring transferable experience. These results suggest that experience transfer is a promising direction for improving the efficiency and adaptability of multimodal LLM agents in complex interactive environments.

Transferencia de Experiencia para Agentes de LLM Multimodales en el Juego Minecraft

Experience Transfer for Multimodal LLM Agents in Minecraft Game

Resumen

Support