MLLM als Zoeker: Interactief Leren van Multimodale Zoekacties voor Geïncarneerde Agenten
MLLM as Retriever: Interactively Learning Multimodal Retrieval for Embodied Agents
October 4, 2024
Auteurs: Junpeng Yue, Xinru Xu, Börje F. Karlsson, Zongqing Lu
cs.AI
Samenvatting
MLLM-agenten tonen potentieel voor complexe belichaamde taken door multimodale taakrelevante trajectgegevens op te halen. Huidige ophaalmethoden richten zich voornamelijk op oppervlakkige overeenkomsten van tekstuele of visuele aanwijzingen in trajecten, waarbij de effectiviteit voor de specifieke taak die wordt uitgevoerd wordt verwaarloosd. Om dit probleem aan te pakken, stellen we een nieuw method voor, MLLM als ReTriever (MART), die de prestaties van belichaamde agenten verbetert door interactiegegevens te gebruiken om een MLLM-ophaler af te stemmen op basis van voorkeursleren, zodat de ophaler volledig rekening houdt met de effectiviteit van trajecten en deze prioriteert voor ongeziene taken. We introduceren ook Trajectabstractie, een mechanisme dat gebruikmaakt van de samenvattingsmogelijkheden van MLLM's om trajecten met minder tokens voor te stellen terwijl belangrijke informatie behouden blijft, waardoor agenten mijlpalen in het traject beter kunnen begrijpen. Experimentele resultaten in verschillende omgevingen tonen aan dat onze methode de taaksuccespercentages aanzienlijk verbetert in ongeziene scènes in vergelijking met basismethoden. Dit werk presenteert een nieuw paradigma voor multimodale ophaling bij belichaamde agenten, door een algemeen MLLM als ophaler af te stemmen om de effectiviteit van trajecten te beoordelen. Alle benchmarktaken en simulatorcodeaanpassingen voor actie- en observatieruimtes zullen worden vrijgegeven.
English
MLLM agents demonstrate potential for complex embodied tasks by retrieving
multimodal task-relevant trajectory data. However, current retrieval methods
primarily focus on surface-level similarities of textual or visual cues in
trajectories, neglecting their effectiveness for the specific task at hand. To
address this issue, we propose a novel method, MLLM as ReTriever (MART), which
enhances the performance of embodied agents by utilizing interaction data to
fine-tune an MLLM retriever based on preference learning, such that the
retriever fully considers the effectiveness of trajectories and prioritize them
for unseen tasks. We also introduce Trajectory Abstraction, a mechanism that
leverages MLLMs' summarization capabilities to represent trajectories with
fewer tokens while preserving key information, enabling agents to better
comprehend milestones in the trajectory. Experimental results across various
environments demonstrate our method significantly improves task success rates
in unseen scenes compared to baseline methods. This work presents a new
paradigm for multimodal retrieval in embodied agents, by fine-tuning a
general-purpose MLLM as the retriever to assess trajectory effectiveness. All
benchmark task sets and simulator code modifications for action and observation
spaces will be released.Summary
AI-Generated Summary