ChatPaper.aiChatPaper

マインクラフトゲームにおけるマルチモーダルLLMエージェントの経験転移

Experience Transfer for Multimodal LLM Agents in Minecraft Game

April 7, 2026
著者: Chenghao Li, Jun Liu, Songbo Zhang, Huadong Jian, Hao Ni, Lik-Hang Lee, Sung-Ho Bae, Guoqing Wang, Yang Yang, Chaoning Zhang
cs.AI

要旨

複雑なゲーム環境で動作するマルチモーダルLLMエージェントは、新しいタスクを効率的に解決するために、過去の経験を継続的に再利用しなければならない。本研究では、エージェントが記憶を静的な記録の受動的な貯蔵庫として扱うのではなく、過去の相互作用から実践可能な知識を導き出せるようにする、転移志向のメモリフレームワーク「Echo」を提案する。転移を明示的にするため、Echoは再利用可能な知識を5つの次元(構造、属性、プロセス、機能、相互作用)に分解する。この定式化により、エージェントは異なるタスク間で共有される反復パターンを特定し、新しい状況においてどの過去の経験が適用可能かを推論できるようになる。この定式化に基づき、EchoはIn-Context Analogy Learning (ICAL) を活用し、関連する経験を検索し、文脈的な例を通じて未見のタスクに適応させる。Minecraftにおける実験では、ゼロからの学習設定において、Echoがオブジェクト解放タスクで1.3倍から1.7倍の高速化を達成することを示した。さらに、Echoはバースト的な連鎖解放現象を示し、転移可能な経験を獲得した後、短期間で複数の類似アイテムを急速に解放する。これらの結果は、経験転移が複雑な対話環境におけるマルチモーダルLLMエージェントの効率性と適応性を向上させる有望な方向性であることを示唆している。
English
Multimodal LLM agents operating in complex game environments must continually reuse past experience to solve new tasks efficiently. In this work, we propose Echo, a transfer-oriented memory framework that enables agents to derive actionable knowledge from prior interactions rather than treating memory as a passive repository of static records. To make transfer explicit, Echo decomposes reusable knowledge into five dimensions: structure, attribute, process, function, and interaction. This formulation allows the agent to identify recurring patterns shared across different tasks and infer what prior experience remains applicable in new situations. Building on this formulation, Echo leverages In-Context Analogy Learning (ICAL) to retrieve relevant experiences and adapt them to unseen tasks through contextual examples. Experiments in Minecraft show that, under a from-scratch learning setting, Echo achieves a 1.3x to 1.7x speed-up on object-unlocking tasks. Moreover, Echo exhibits a burst-like chain-unlocking phenomenon, rapidly unlocking multiple similar items within a short time interval after acquiring transferable experience. These results suggest that experience transfer is a promising direction for improving the efficiency and adaptability of multimodal LLM agents in complex interactive environments.
PDF60April 9, 2026