UniGoal: 범용 제로샷 목표 지향 내비게이션을 향하여
UniGoal: Towards Universal Zero-shot Goal-oriented Navigation
March 13, 2025
저자: Hang Yin, Xiuwei Xu, Lingqing Zhao, Ziwei Wang, Jie Zhou, Jiwen Lu
cs.AI
초록
본 논문에서는 범용 제로샷 목표 지향 내비게이션을 위한 일반적인 프레임워크를 제안한다. 기존의 제로샷 방법들은 특정 작업을 위해 대형 언어 모델(LLM)을 기반으로 추론 프레임워크를 구축하지만, 이는 전체 파이프라인이 크게 다르며 다양한 유형의 목표에 일반화되지 못한다. 범용 제로샷 내비게이션을 목표로, 우리는 객체 카테고리, 인스턴스 이미지, 텍스트 설명 등 다양한 목표를 통합하기 위한 균일한 그래프 표현을 제안한다. 또한 에이전트의 관찰을 온라인으로 유지되는 장면 그래프로 변환한다. 이러한 일관된 장면 및 목표 표현을 통해 순수 텍스트와 비교하여 대부분의 구조적 정보를 보존하고, LLM을 활용하여 명시적인 그래프 기반 추론을 수행할 수 있다. 구체적으로, 각 시간 단위에서 장면 그래프와 목표 그래프 간의 그래프 매칭을 수행하고, 다양한 매칭 상태에 따라 탐색의 장기 목표를 생성하기 위한 전략을 제안한다. 에이전트는 제로 매칭 시 목표의 서브그래프를 반복적으로 탐색한다. 부분 매칭 시에는 좌표 투영 및 앵커 쌍 정렬을 활용하여 목표 위치를 추론한다. 마지막으로 완벽한 매칭을 위해 장면 그래프 보정 및 목표 검증이 적용된다. 또한 단계 간의 견고한 전환을 가능하게 하는 블랙리스트 메커니즘을 제시한다. 여러 벤치마크에서의 광범위한 실험을 통해 우리의 UniGoal이 단일 모델로 세 가지 연구된 내비게이션 작업에서 최첨단 제로샷 성능을 달성하며, 작업별 제로샷 방법과 지도 학습 범용 방법을 능가함을 보여준다.
English
In this paper, we propose a general framework for universal zero-shot
goal-oriented navigation. Existing zero-shot methods build inference framework
upon large language models (LLM) for specific tasks, which differs a lot in
overall pipeline and fails to generalize across different types of goal.
Towards the aim of universal zero-shot navigation, we propose a uniform graph
representation to unify different goals, including object category, instance
image and text description. We also convert the observation of agent into an
online maintained scene graph. With this consistent scene and goal
representation, we preserve most structural information compared with pure text
and are able to leverage LLM for explicit graph-based reasoning. Specifically,
we conduct graph matching between the scene graph and goal graph at each time
instant and propose different strategies to generate long-term goal of
exploration according to different matching states. The agent first iteratively
searches subgraph of goal when zero-matched. With partial matching, the agent
then utilizes coordinate projection and anchor pair alignment to infer the goal
location. Finally scene graph correction and goal verification are applied for
perfect matching. We also present a blacklist mechanism to enable robust switch
between stages. Extensive experiments on several benchmarks show that our
UniGoal achieves state-of-the-art zero-shot performance on three studied
navigation tasks with a single model, even outperforming task-specific
zero-shot methods and supervised universal methods.Summary
AI-Generated Summary