MLLM come Recuperatore: Apprendimento Interattivo per il Recupero Multimodale per Agenti Incarnati
MLLM as Retriever: Interactively Learning Multimodal Retrieval for Embodied Agents
October 4, 2024
Autori: Junpeng Yue, Xinru Xu, Börje F. Karlsson, Zongqing Lu
cs.AI
Abstract
Gli agenti MLLM dimostrano potenzialità per complesse attività incarnate recuperando dati di traiettoria multimodali rilevanti per il compito. Tuttavia, i metodi attuali di recupero si concentrano principalmente sulle somiglianze superficiali di indizi testuali o visivi nelle traiettorie, trascurando la loro efficacia per il compito specifico in corso. Per affrontare questo problema, proponiamo un nuovo metodo, MLLM come Recuperatore (MART), che migliora le prestazioni degli agenti incarnati utilizzando dati di interazione per perfezionare un recuperatore MLLM basato sull'apprendimento delle preferenze, in modo che il recuperatore consideri appieno l'efficacia delle traiettorie e le priorizzi per i compiti non visti. Introduciamo anche l'astrazione della traiettoria, un meccanismo che sfrutta le capacità di riassunto dei MLLM per rappresentare le traiettorie con meno token preservando le informazioni chiave, consentendo agli agenti di comprendere meglio i traguardi nella traiettoria. I risultati sperimentali in vari ambienti dimostrano che il nostro metodo migliora significativamente i tassi di successo dei compiti in scene non viste rispetto ai metodi di base. Questo lavoro presenta un nuovo paradigma per il recupero multimodale negli agenti incarnati, perfezionando un MLLM di scopo generale come recuperatore per valutare l'efficacia della traiettoria. Tutti i set di compiti di riferimento e le modifiche al codice del simulatore per gli spazi di azione e osservazione saranno resi disponibili.
English
MLLM agents demonstrate potential for complex embodied tasks by retrieving
multimodal task-relevant trajectory data. However, current retrieval methods
primarily focus on surface-level similarities of textual or visual cues in
trajectories, neglecting their effectiveness for the specific task at hand. To
address this issue, we propose a novel method, MLLM as ReTriever (MART), which
enhances the performance of embodied agents by utilizing interaction data to
fine-tune an MLLM retriever based on preference learning, such that the
retriever fully considers the effectiveness of trajectories and prioritize them
for unseen tasks. We also introduce Trajectory Abstraction, a mechanism that
leverages MLLMs' summarization capabilities to represent trajectories with
fewer tokens while preserving key information, enabling agents to better
comprehend milestones in the trajectory. Experimental results across various
environments demonstrate our method significantly improves task success rates
in unseen scenes compared to baseline methods. This work presents a new
paradigm for multimodal retrieval in embodied agents, by fine-tuning a
general-purpose MLLM as the retriever to assess trajectory effectiveness. All
benchmark task sets and simulator code modifications for action and observation
spaces will be released.