Перенос опыта для мультимодальных агентов с большими языковыми моделями в игре Minecraft

Аннотация

Мультимодальные агенты на основе больших языковых моделей (LLM), функционирующие в сложных игровых средах, должны постоянно повторно использовать прошлый опыт для эффективного решения новых задач. В данной работе мы предлагаем Echo — ориентированную на перенос знаний архитектуру памяти, которая позволяет агентам извлекать практические знания из предыдущих взаимодействий, а не рассматривать память как пассивное хранилище статических записей. Чтобы сделать перенос явным, Echo декомпозирует пригодное для повторного использования знание на пять измерений: структура, атрибут, процесс, функция и взаимодействие. Такой подход позволяет агенту выявлять повторяющиеся шаблоны, общие для различных задач, и определять, какой предыдущий опыт остается применимым в новых ситуациях. Основываясь на этой формулировке, Echo использует обучение по аналогии в контексте (In-Context Analogy Learning, ICAL) для извлечения релевантного опыта и его адаптации к новым задачам с помощью контекстных примеров. Эксперименты в Minecraft показывают, что в условиях обучения с нуля Echo обеспечивает ускорение выполнения задач по разблокировке объектов в 1,3–1,7 раза. Более того, Echo демонстрирует цепочечный "взрывной" эффект разблокировки, быстро открывая несколько похожих предметов за короткий промежуток времени после получения переносимого опыта. Эти результаты свидетельствуют о том, что перенос опыта является перспективным направлением для повышения эффективности и адаптивности мультимодальных LLM-агентов в сложных интерактивных средах.

English

Multimodal LLM agents operating in complex game environments must continually reuse past experience to solve new tasks efficiently. In this work, we propose Echo, a transfer-oriented memory framework that enables agents to derive actionable knowledge from prior interactions rather than treating memory as a passive repository of static records. To make transfer explicit, Echo decomposes reusable knowledge into five dimensions: structure, attribute, process, function, and interaction. This formulation allows the agent to identify recurring patterns shared across different tasks and infer what prior experience remains applicable in new situations. Building on this formulation, Echo leverages In-Context Analogy Learning (ICAL) to retrieve relevant experiences and adapt them to unseen tasks through contextual examples. Experiments in Minecraft show that, under a from-scratch learning setting, Echo achieves a 1.3x to 1.7x speed-up on object-unlocking tasks. Moreover, Echo exhibits a burst-like chain-unlocking phenomenon, rapidly unlocking multiple similar items within a short time interval after acquiring transferable experience. These results suggest that experience transfer is a promising direction for improving the efficiency and adaptability of multimodal LLM agents in complex interactive environments.

Перенос опыта для мультимодальных агентов с большими языковыми моделями в игре Minecraft

Experience Transfer for Multimodal LLM Agents in Minecraft Game

Аннотация

Support