Erfahrungstransfer für multimodale LLM-Agenten im Minecraft-Spiel
Experience Transfer for Multimodal LLM Agents in Minecraft Game
April 7, 2026
Autoren: Chenghao Li, Jun Liu, Songbo Zhang, Huadong Jian, Hao Ni, Lik-Hang Lee, Sung-Ho Bae, Guoqing Wang, Yang Yang, Chaoning Zhang
cs.AI
Zusammenfassung
Multimodale LLM-Agenten, die in komplexen Spielumgebungen operieren, müssen kontinuierlich auf vergangene Erfahrungen zurückgreifen, um neue Aufgaben effizient zu lösen. In dieser Arbeit schlagen wir Echo vor, ein transferorientiertes Gedächtnisframework, das es Agenten ermöglicht, handlungsrelevantes Wissen aus früheren Interaktionen abzuleiten, anstatt das Gedächtnis als passiven Speicher statischer Aufzeichnungen zu behandeln. Um Transfer explizit zu machen, zerlegt Echo wiederverwendbares Wissen in fünf Dimensionen: Struktur, Attribut, Prozess, Funktion und Interaktion. Diese Formulierung ermöglicht es dem Agenten, wiederkehrende Muster zu identifizieren, die verschiedenen Aufgaben gemeinsam sind, und abzuleiten, welche frühere Erfahrung in neuen Situationen weiterhin anwendbar ist. Aufbauend auf dieser Formulierung nutzt Echo In-Context Analogy Learning (ICAL), um relevante Erfahrungen abzurufen und sie durch kontextuelle Beispiele an ungesehene Aufgaben anzupassen. Experimente in Minecraft zeigen, dass Echo in einem Lernen-von-Grund-auf-Setting eine 1,3- bis 1,7-fache Beschleunigung bei Objekt-Freischaltungsaufgaben erreicht. Darüber hinaus zeigt Echo ein burstartiges Kettenfreischaltungsphänomen, bei dem nach dem Erwerb übertragbarer Erfahrung mehrere ähnliche Gegenstände innerhalb eines kurzen Zeitintervalls schnell freigeschaltet werden. Diese Ergebnisse deuten darauf hin, dass Erfahrungstransfer eine vielversprechende Richtung ist, um die Effizienz und Anpassungsfähigkeit multimodaler LLM-Agenten in komplexen interaktiven Umgebungen zu verbessern.
English
Multimodal LLM agents operating in complex game environments must continually reuse past experience to solve new tasks efficiently. In this work, we propose Echo, a transfer-oriented memory framework that enables agents to derive actionable knowledge from prior interactions rather than treating memory as a passive repository of static records. To make transfer explicit, Echo decomposes reusable knowledge into five dimensions: structure, attribute, process, function, and interaction. This formulation allows the agent to identify recurring patterns shared across different tasks and infer what prior experience remains applicable in new situations. Building on this formulation, Echo leverages In-Context Analogy Learning (ICAL) to retrieve relevant experiences and adapt them to unseen tasks through contextual examples. Experiments in Minecraft show that, under a from-scratch learning setting, Echo achieves a 1.3x to 1.7x speed-up on object-unlocking tasks. Moreover, Echo exhibits a burst-like chain-unlocking phenomenon, rapidly unlocking multiple similar items within a short time interval after acquiring transferable experience. These results suggest that experience transfer is a promising direction for improving the efficiency and adaptability of multimodal LLM agents in complex interactive environments.