Transfert d'Expérience pour les Agents LLM Multimodaux dans le Jeu Minecraft
Experience Transfer for Multimodal LLM Agents in Minecraft Game
April 7, 2026
Auteurs: Chenghao Li, Jun Liu, Songbo Zhang, Huadong Jian, Hao Ni, Lik-Hang Lee, Sung-Ho Bae, Guoqing Wang, Yang Yang, Chaoning Zhang
cs.AI
Résumé
Les agents LLM multimodaux opérant dans des environnements de jeu complexes doivent réutiliser continuellement l'expérience passée pour résoudre efficacement de nouvelles tâches. Dans ce travail, nous proposons Echo, un cadre de mémoire orienté transfert qui permet aux agents de dériver des connaissances actionnables d'interactions antérieures plutôt que de traiter la mémoire comme un référentiel passif d'enregistrements statiques. Pour rendre le transfert explicite, Echo décompose les connaissances réutilisables en cinq dimensions : structure, attribut, processus, fonction et interaction. Cette formulation permet à l'agent d'identifier les motifs récurrents partagés entre différentes tâches et de déduire quelle expérience antérieure reste applicable dans de nouvelles situations. S'appuyant sur cette formulation, Echo exploite l'Apprentissage par Analogie Contextuelle (ICAL) pour récupérer les expériences pertinentes et les adapter à des tâches non vues grâce à des exemples contextuels. Les expériences dans Minecraft montrent que, dans un cadre d'apprentissage à partir de zéro, Echo achieve une accélération de 1,3 à 1,7 fois sur les tâches de déverrouillage d'objets. De plus, Echo présente un phénomène de déverrouillage en chaîne de type explosif, déverrouillant rapidement plusieurs objets similaires dans un court intervalle de temps après avoir acquis une expérience transférable. Ces résultats suggèrent que le transfert d'expérience est une direction prometteuse pour améliorer l'efficacité et l'adaptabilité des agents LLM multimodaux dans des environnements interactifs complexes.
English
Multimodal LLM agents operating in complex game environments must continually reuse past experience to solve new tasks efficiently. In this work, we propose Echo, a transfer-oriented memory framework that enables agents to derive actionable knowledge from prior interactions rather than treating memory as a passive repository of static records. To make transfer explicit, Echo decomposes reusable knowledge into five dimensions: structure, attribute, process, function, and interaction. This formulation allows the agent to identify recurring patterns shared across different tasks and infer what prior experience remains applicable in new situations. Building on this formulation, Echo leverages In-Context Analogy Learning (ICAL) to retrieve relevant experiences and adapt them to unseen tasks through contextual examples. Experiments in Minecraft show that, under a from-scratch learning setting, Echo achieves a 1.3x to 1.7x speed-up on object-unlocking tasks. Moreover, Echo exhibits a burst-like chain-unlocking phenomenon, rapidly unlocking multiple similar items within a short time interval after acquiring transferable experience. These results suggest that experience transfer is a promising direction for improving the efficiency and adaptability of multimodal LLM agents in complex interactive environments.