ChatPaper.aiChatPaper

MLLMをリトリーバーとして: 具現エージェントのためのマルチモーダル検索のインタラクティブな学習

MLLM as Retriever: Interactively Learning Multimodal Retrieval for Embodied Agents

October 4, 2024
著者: Junpeng Yue, Xinru Xu, Börje F. Karlsson, Zongqing Lu
cs.AI

要旨

MLLM エージェントは、多様なモーダルのタスクにおいて複雑な能力を示し、タスクに関連する軌跡データを取得することができます。しかし、現在の取得方法は、主に軌跡内のテキストやビジュアルの手掛かりの表層レベルの類似性に焦点を当てており、その特定のタスクに対する効果を無視しています。この問題に対処するため、我々は新しい手法、MART(MLLM as ReTriever)を提案します。この手法は、相互作用データを活用して MLLM 取得器を好みの学習に基づいて微調整し、取得器が軌跡の効果を十分に考慮し、未知のタスクに対して優先順位を付けるようにします。また、Trajectory Abstraction を導入し、MLLM の要約能力を活用して、トークン数を減らしつつ主要な情報を保持し、エージェントが軌跡内のマイルストーンをよりよく理解できるようにします。さまざまな環境での実験結果は、当社の手法がベースライン手法と比較して未知のシーンにおけるタスク成功率を大幅に向上させることを示しています。この研究は、一般的な目的の MLLM を取得器として微調整し、軌跡の効果を評価することで、エンボディド エージェントにおける多様なモーダルの取得の新たなパラダイムを提示しています。すべてのベンチマークタスクセットおよびアクションおよび観測空間のシミュレータコードの変更は公開されます。
English
MLLM agents demonstrate potential for complex embodied tasks by retrieving multimodal task-relevant trajectory data. However, current retrieval methods primarily focus on surface-level similarities of textual or visual cues in trajectories, neglecting their effectiveness for the specific task at hand. To address this issue, we propose a novel method, MLLM as ReTriever (MART), which enhances the performance of embodied agents by utilizing interaction data to fine-tune an MLLM retriever based on preference learning, such that the retriever fully considers the effectiveness of trajectories and prioritize them for unseen tasks. We also introduce Trajectory Abstraction, a mechanism that leverages MLLMs' summarization capabilities to represent trajectories with fewer tokens while preserving key information, enabling agents to better comprehend milestones in the trajectory. Experimental results across various environments demonstrate our method significantly improves task success rates in unseen scenes compared to baseline methods. This work presents a new paradigm for multimodal retrieval in embodied agents, by fine-tuning a general-purpose MLLM as the retriever to assess trajectory effectiveness. All benchmark task sets and simulator code modifications for action and observation spaces will be released.

Summary

AI-Generated Summary

PDF372November 16, 2024