Trasferimento dell'Esperienza per Agenti LLM Multimodali nel Gioco Minecraft

Abstract

Gli agenti LLM multimodali che operano in ambienti di gioco complessi devono riutilizzare continuamente l'esperienza passata per risolvere nuovi compiti in modo efficiente. In questo lavoro proponiamo Echo, un framework di memoria orientato al trasferimento che consente agli agenti di derivare conoscenza azionabile da interazioni precedenti, invece di trattare la memoria come un repository passivo di record statici. Per rendere esplicito il trasferimento, Echo scompone la conoscenza riutilizzabile in cinque dimensioni: struttura, attributo, processo, funzione e interazione. Questa formulazione permette all'agente di identificare modelli ricorrenti condivisi tra diversi compiti e inferire quale esperienza precedente rimanga applicabile in nuove situazioni. Basandosi su questa formulazione, Echo sfrutta l'Apprendimento per Analogia Contestuale (In-Context Analogy Learning - ICAL) per recuperare esperienze rilevanti e adattarle a compiti non visti attraverso esempi contestuali. Esperimenti in Minecraft dimostrano che, in uno scenario di apprendimento da zero, Echo raggiunge un'accelerazione di 1,3x-1,7x nei compiti di sblocco oggetti. Inoltre, Echo mostra un fenomeno di sblocco a catena di tipo esplosivo, sbloccando rapidamente multiple oggetti simili in un breve intervallo temporale dopo aver acquisito esperienza trasferibile. Questi risultati suggeriscono che il trasferimento di esperienza sia una direzione promettente per migliorare l'efficienza e l'adattabilità degli agenti LLM multimodali in ambienti interattivi complessi.

English

Multimodal LLM agents operating in complex game environments must continually reuse past experience to solve new tasks efficiently. In this work, we propose Echo, a transfer-oriented memory framework that enables agents to derive actionable knowledge from prior interactions rather than treating memory as a passive repository of static records. To make transfer explicit, Echo decomposes reusable knowledge into five dimensions: structure, attribute, process, function, and interaction. This formulation allows the agent to identify recurring patterns shared across different tasks and infer what prior experience remains applicable in new situations. Building on this formulation, Echo leverages In-Context Analogy Learning (ICAL) to retrieve relevant experiences and adapt them to unseen tasks through contextual examples. Experiments in Minecraft show that, under a from-scratch learning setting, Echo achieves a 1.3x to 1.7x speed-up on object-unlocking tasks. Moreover, Echo exhibits a burst-like chain-unlocking phenomenon, rapidly unlocking multiple similar items within a short time interval after acquiring transferable experience. These results suggest that experience transfer is a promising direction for improving the efficiency and adaptability of multimodal LLM agents in complex interactive environments.

Trasferimento dell'Esperienza per Agenti LLM Multimodali nel Gioco Minecraft

Experience Transfer for Multimodal LLM Agents in Minecraft Game

Abstract

Support