Nav-R1: 구체화된 장면에서의 추론 및 탐색
Nav-R1: Reasoning and Navigation in Embodied Scenes
September 13, 2025
저자: Qingxiang Liu, Ting Huang, Zeyu Zhang, Hao Tang
cs.AI
초록
구현된 내비게이션은 에이전트가 복잡한 3D 환경에서 견고한 상호작용을 위해 지각, 추론, 행동을 통합할 것을 요구합니다. 기존 접근 방식들은 다양한 환경 간 일반화를 방해하는 비일관적이고 불안정한 추론 흔적, 그리고 실시간 내비게이션을 위한 저지연 제어와 장기적 의미론적 추론 간의 균형을 맞추는 데 어려움을 겪는 경우가 많습니다. 이러한 문제를 해결하기 위해, 우리는 구현된 환경에서의 추론을 통합하는 구현된 기초 모델인 Nav-R1을 제안합니다. 먼저, 구조화된 추론을 통한 콜드 스타트 초기화를 가능하게 하는 구현된 작업을 위한 단계별 사고의 연쇄(CoT) 대규모 데이터셋인 Nav-CoT-110K를 구축했습니다. 이를 기반으로, 구조적 준수, 의미론적 근거, 경로 충실도를 개선하기 위해 형식, 이해, 내비게이션의 세 가지 상호보완적인 보상을 갖춘 GRPO 기반 강화 학습 프레임워크를 설계했습니다. 또한, 효율적이면서도 일관된 내비게이션을 위해 신중한 의미론적 추론과 저지연 반응 제어를 분리하는 Fast-in-Slow 추론 패러다임을 도입했습니다. 구현된 AI 벤치마크에 대한 광범위한 평가 결과, Nav-R1은 강력한 베이스라인을 일관적으로 능가하며 추론 및 내비게이션 성능에서 평균 8% 이상의 향상을 보였습니다. 모바일 로봇에 대한 실제 배포는 제한된 온보드 자원 하에서의 견고성을 추가로 검증했습니다. 코드: https://github.com/AIGeeksGroup/Nav-R1. 웹사이트: https://aigeeksgroup.github.io/Nav-R1.
English
Embodied navigation requires agents to integrate perception, reasoning, and
action for robust interaction in complex 3D environments. Existing approaches
often suffer from incoherent and unstable reasoning traces that hinder
generalization across diverse environments, and difficulty balancing
long-horizon semantic reasoning with low-latency control for real-time
navigation. To address these challenges, we propose Nav-R1, an embodied
foundation model that unifies reasoning in embodied environments. We first
construct Nav-CoT-110K, a large-scale dataset of step-by-step Chains-of-Thought
(CoT) for embodied tasks, which enables cold-start initialization with
structured reasoning. Building on this foundation, we design a GRPO-based
reinforcement learning framework with three complementary rewards: format,
understanding, and navigation, to improve structural adherence, semantic
grounding, and path fidelity. Furthermore, we introduce a Fast-in-Slow
reasoning paradigm, decoupling deliberate semantic reasoning from low-latency
reactive control for efficient yet coherent navigation. Extensive evaluations
on embodied AI benchmarks demonstrate that Nav-R1 consistently outperforms
strong baselines, with over 8% average improvement in reasoning and navigation
performance. Real-world deployment on a mobile robot further validates its
robustness under limited onboard resources. Code:
https://github.com/AIGeeksGroup/Nav-R1. Website:
https://aigeeksgroup.github.io/Nav-R1.