Transferência de Experiência para Agentes de LLM Multimodais no Jogo Minecraft
Experience Transfer for Multimodal LLM Agents in Minecraft Game
April 7, 2026
Autores: Chenghao Li, Jun Liu, Songbo Zhang, Huadong Jian, Hao Ni, Lik-Hang Lee, Sung-Ho Bae, Guoqing Wang, Yang Yang, Chaoning Zhang
cs.AI
Resumo
Agentes de LLM multimodal que operam em ambientes de jogo complexos devem reutilizar continuamente experiências passadas para resolver novas tarefas com eficiência. Neste trabalho, propomos o Echo, uma estrutura de memória orientada para transferência que permite aos agentes derivar conhecimento acionável de interações prévias, em vez de tratar a memória como um repositório passivo de registros estáticos. Para tornar a transferência explícita, o Echo decompõe o conhecimento reutilizável em cinco dimensões: estrutura, atributo, processo, função e interação. Esta formulação permite ao agente identificar padrões recorrentes compartilhados entre diferentes tarefas e inferir qual experiência prévia permanece aplicável em novas situações. Com base nesta formulação, o Echo aproveita a Aprendizagem por Analogia em Contexto (ICAL) para recuperar experiências relevantes e adaptá-las a tarefas não vistas por meio de exemplos contextuais. Experimentos no Minecraft demonstram que, sob uma configuração de aprendizado do zero, o Echo alcança uma aceleração de 1,3x a 1,7x em tarefas de desbloqueio de objetos. Além disso, o Echo exibe um fenômeno de desbloqueio em cadeia em rajada, desbloqueando rapidamente múltiplos itens similares dentro de um curto intervalo de tempo após adquirir experiência transferível. Estes resultados sugerem que a transferência de experiência é uma direção promissora para melhorar a eficiência e adaptabilidade de agentes de LLM multimodal em ambientes interativos complexos.
English
Multimodal LLM agents operating in complex game environments must continually reuse past experience to solve new tasks efficiently. In this work, we propose Echo, a transfer-oriented memory framework that enables agents to derive actionable knowledge from prior interactions rather than treating memory as a passive repository of static records. To make transfer explicit, Echo decomposes reusable knowledge into five dimensions: structure, attribute, process, function, and interaction. This formulation allows the agent to identify recurring patterns shared across different tasks and infer what prior experience remains applicable in new situations. Building on this formulation, Echo leverages In-Context Analogy Learning (ICAL) to retrieve relevant experiences and adapt them to unseen tasks through contextual examples. Experiments in Minecraft show that, under a from-scratch learning setting, Echo achieves a 1.3x to 1.7x speed-up on object-unlocking tasks. Moreover, Echo exhibits a burst-like chain-unlocking phenomenon, rapidly unlocking multiple similar items within a short time interval after acquiring transferable experience. These results suggest that experience transfer is a promising direction for improving the efficiency and adaptability of multimodal LLM agents in complex interactive environments.