ChatPaper.aiChatPaper

UniGoal : Vers une navigation orientée objectif universelle sans apprentissage préalable

UniGoal: Towards Universal Zero-shot Goal-oriented Navigation

March 13, 2025
Auteurs: Hang Yin, Xiuwei Xu, Lingqing Zhao, Ziwei Wang, Jie Zhou, Jiwen Lu
cs.AI

Résumé

Dans cet article, nous proposons un cadre général pour la navigation universelle orientée objectif en mode zéro-shot. Les méthodes zéro-shot existantes construisent un cadre d'inférence basé sur des modèles de langage à grande échelle (LLM) pour des tâches spécifiques, ce qui diffère considérablement dans le pipeline global et échoue à généraliser à travers différents types d'objectifs. En vue d'une navigation universelle zéro-shot, nous proposons une représentation graphique uniforme pour unifier différents objectifs, incluant la catégorie d'objet, l'image d'instance et la description textuelle. Nous convertissons également l'observation de l'agent en un graphe de scène maintenu en ligne. Avec cette représentation cohérente de la scène et de l'objectif, nous préservons la plupart des informations structurelles par rapport au texte pur et sommes capables d'exploiter les LLM pour un raisonnement explicite basé sur les graphes. Plus précisément, nous effectuons un appariement de graphes entre le graphe de scène et le graphe d'objectif à chaque instant et proposons différentes stratégies pour générer un objectif à long terme d'exploration selon différents états d'appariement. L'agent recherche d'abord itérativement un sous-graphe de l'objectif lorsqu'il n'y a aucun appariement. Avec un appariement partiel, l'agent utilise ensuite la projection de coordonnées et l'alignement de paires d'ancres pour inférer la localisation de l'objectif. Enfin, une correction du graphe de scène et une vérification de l'objectif sont appliquées pour un appariement parfait. Nous présentons également un mécanisme de liste noire pour permettre une transition robuste entre les étapes. Des expériences approfondies sur plusieurs benchmarks montrent que notre méthode UniGoal atteint des performances zéro-shot de pointe sur trois tâches de navigation étudiées avec un seul modèle, surpassant même les méthodes zéro-shot spécifiques à une tâche et les méthodes universelles supervisées.
English
In this paper, we propose a general framework for universal zero-shot goal-oriented navigation. Existing zero-shot methods build inference framework upon large language models (LLM) for specific tasks, which differs a lot in overall pipeline and fails to generalize across different types of goal. Towards the aim of universal zero-shot navigation, we propose a uniform graph representation to unify different goals, including object category, instance image and text description. We also convert the observation of agent into an online maintained scene graph. With this consistent scene and goal representation, we preserve most structural information compared with pure text and are able to leverage LLM for explicit graph-based reasoning. Specifically, we conduct graph matching between the scene graph and goal graph at each time instant and propose different strategies to generate long-term goal of exploration according to different matching states. The agent first iteratively searches subgraph of goal when zero-matched. With partial matching, the agent then utilizes coordinate projection and anchor pair alignment to infer the goal location. Finally scene graph correction and goal verification are applied for perfect matching. We also present a blacklist mechanism to enable robust switch between stages. Extensive experiments on several benchmarks show that our UniGoal achieves state-of-the-art zero-shot performance on three studied navigation tasks with a single model, even outperforming task-specific zero-shot methods and supervised universal methods.

Summary

AI-Generated Summary

PDF62March 14, 2025