MLLM als Zoeker: Interactief Leren van Multimodale Zoekacties voor Geïncarneerde Agenten

Samenvatting

MLLM-agenten tonen potentieel voor complexe belichaamde taken door multimodale taakrelevante trajectgegevens op te halen. Huidige ophaalmethoden richten zich voornamelijk op oppervlakkige overeenkomsten van tekstuele of visuele aanwijzingen in trajecten, waarbij de effectiviteit voor de specifieke taak die wordt uitgevoerd wordt verwaarloosd. Om dit probleem aan te pakken, stellen we een nieuw method voor, MLLM als ReTriever (MART), die de prestaties van belichaamde agenten verbetert door interactiegegevens te gebruiken om een MLLM-ophaler af te stemmen op basis van voorkeursleren, zodat de ophaler volledig rekening houdt met de effectiviteit van trajecten en deze prioriteert voor ongeziene taken. We introduceren ook Trajectabstractie, een mechanisme dat gebruikmaakt van de samenvattingsmogelijkheden van MLLM's om trajecten met minder tokens voor te stellen terwijl belangrijke informatie behouden blijft, waardoor agenten mijlpalen in het traject beter kunnen begrijpen. Experimentele resultaten in verschillende omgevingen tonen aan dat onze methode de taaksuccespercentages aanzienlijk verbetert in ongeziene scènes in vergelijking met basismethoden. Dit werk presenteert een nieuw paradigma voor multimodale ophaling bij belichaamde agenten, door een algemeen MLLM als ophaler af te stemmen om de effectiviteit van trajecten te beoordelen. Alle benchmarktaken en simulatorcodeaanpassingen voor actie- en observatieruimtes zullen worden vrijgegeven.

English

MLLM agents demonstrate potential for complex embodied tasks by retrieving multimodal task-relevant trajectory data. However, current retrieval methods primarily focus on surface-level similarities of textual or visual cues in trajectories, neglecting their effectiveness for the specific task at hand. To address this issue, we propose a novel method, MLLM as ReTriever (MART), which enhances the performance of embodied agents by utilizing interaction data to fine-tune an MLLM retriever based on preference learning, such that the retriever fully considers the effectiveness of trajectories and prioritize them for unseen tasks. We also introduce Trajectory Abstraction, a mechanism that leverages MLLMs' summarization capabilities to represent trajectories with fewer tokens while preserving key information, enabling agents to better comprehend milestones in the trajectory. Experimental results across various environments demonstrate our method significantly improves task success rates in unseen scenes compared to baseline methods. This work presents a new paradigm for multimodal retrieval in embodied agents, by fine-tuning a general-purpose MLLM as the retriever to assess trajectory effectiveness. All benchmark task sets and simulator code modifications for action and observation spaces will be released.

MLLM als Zoeker: Interactief Leren van Multimodale Zoekacties voor Geïncarneerde Agenten

MLLM as Retriever: Interactively Learning Multimodal Retrieval for Embodied Agents

Samenvatting

Support