Ervaringsoverdracht voor multimodale LLM-agenten in Minecraft

Samenvatting

Multimodale LLM-agenten die opereren in complexe spelomgevingen moeten voortdurend eerder opgedane ervaring hergebruiken om nieuwe taken efficiënt op te lossen. In dit werk stellen we Echo voor, een transfergericht geheugenkader dat agenten in staat stelt om actiegerichte kennis af te leiden uit eerdere interacties, in plaats van geheugen te behandelen als een passieve opslagplaats van statische gegevens. Om transfer expliciet te maken, ontleedt Echo herbruikbare kennis in vijf dimensies: structuur, attribuut, proces, functie en interactie. Deze formulering stelt de agent in staat om terugkerende patronen die gedeeld worden tussen verschillende taken te identificeren en af te leiden welke eerdere ervaring van toepassing blijft in nieuwe situaties. Voortbordurend op deze formulering, benut Echo In-Context Analogie Leren (ICAL) om relevante ervaringen op te halen en deze aan te passen aan onbekende taken door middel van contextuele voorbeelden. Experimenten in Minecraft tonen aan dat Echo, onder een leeromgeving vanaf nul, een 1,3x tot 1,7x versnelling bereikt bij taken voor het ontgrendelen van objecten. Bovendien vertoont Echo een kettingontgrendelingsfenomeen in de vorm van een uitbarsting, waarbij meerdere vergelijkbare items snel worden ontgrendeld binnen een kort tijdsinterval na het verwerven van overdraagbare ervaring. Deze resultaten suggereren dat ervaringsoverdracht een veelbelovende richting is voor het verbeteren van de efficiëntie en aanpasbaarheid van multimodale LLM-agenten in complexe interactieve omgevingen.

English

Multimodal LLM agents operating in complex game environments must continually reuse past experience to solve new tasks efficiently. In this work, we propose Echo, a transfer-oriented memory framework that enables agents to derive actionable knowledge from prior interactions rather than treating memory as a passive repository of static records. To make transfer explicit, Echo decomposes reusable knowledge into five dimensions: structure, attribute, process, function, and interaction. This formulation allows the agent to identify recurring patterns shared across different tasks and infer what prior experience remains applicable in new situations. Building on this formulation, Echo leverages In-Context Analogy Learning (ICAL) to retrieve relevant experiences and adapt them to unseen tasks through contextual examples. Experiments in Minecraft show that, under a from-scratch learning setting, Echo achieves a 1.3x to 1.7x speed-up on object-unlocking tasks. Moreover, Echo exhibits a burst-like chain-unlocking phenomenon, rapidly unlocking multiple similar items within a short time interval after acquiring transferable experience. These results suggest that experience transfer is a promising direction for improving the efficiency and adaptability of multimodal LLM agents in complex interactive environments.

Ervaringsoverdracht voor multimodale LLM-agenten in Minecraft

Experience Transfer for Multimodal LLM Agents in Minecraft Game

Samenvatting

Support