ChatPaper.aiChatPaper

Nav-R1: 具現化されたシーンにおける推論とナビゲーション

Nav-R1: Reasoning and Navigation in Embodied Scenes

September 13, 2025
著者: Qingxiang Liu, Ting Huang, Zeyu Zhang, Hao Tang
cs.AI

要旨

エンボディードナビゲーションでは、エージェントが複雑な3D環境において堅牢な相互作用を行うために、知覚、推論、行動を統合する必要があります。既存のアプローチでは、多様な環境間での一般化を妨げる非一貫性や不安定な推論トレース、およびリアルタイムナビゲーションのための低遅延制御と長期的な意味的推論のバランスを取る難しさがしばしば問題となります。これらの課題に対処するため、我々はNav-R1を提案します。これは、エンボディード環境における推論を統合するエンボディード基盤モデルです。まず、エンボディードタスクのためのステップバイステップのChain-of-Thought(CoT)を含む大規模データセットNav-CoT-110Kを構築し、構造化された推論によるコールドスタート初期化を可能にします。この基盤に基づき、GRPOベースの強化学習フレームワークを設計し、フォーマット、理解、ナビゲーションという3つの補完的な報酬を用いて、構造的遵守、意味的基盤付け、および経路の忠実度を向上させます。さらに、効率的でありながら一貫性のあるナビゲーションを実現するため、慎重な意味的推論と低遅延の反応制御を分離するFast-in-Slow推論パラダイムを導入します。エンボディードAIベンチマークでの広範な評価により、Nav-R1が強力なベースラインを一貫して上回り、推論とナビゲーションの性能において平均8%以上の改善を示すことが実証されました。モバイルロボットでの実世界展開により、限られたオンボードリソース下での堅牢性も検証されました。コード: https://github.com/AIGeeksGroup/Nav-R1. ウェブサイト: https://aigeeksgroup.github.io/Nav-R1.
English
Embodied navigation requires agents to integrate perception, reasoning, and action for robust interaction in complex 3D environments. Existing approaches often suffer from incoherent and unstable reasoning traces that hinder generalization across diverse environments, and difficulty balancing long-horizon semantic reasoning with low-latency control for real-time navigation. To address these challenges, we propose Nav-R1, an embodied foundation model that unifies reasoning in embodied environments. We first construct Nav-CoT-110K, a large-scale dataset of step-by-step Chains-of-Thought (CoT) for embodied tasks, which enables cold-start initialization with structured reasoning. Building on this foundation, we design a GRPO-based reinforcement learning framework with three complementary rewards: format, understanding, and navigation, to improve structural adherence, semantic grounding, and path fidelity. Furthermore, we introduce a Fast-in-Slow reasoning paradigm, decoupling deliberate semantic reasoning from low-latency reactive control for efficient yet coherent navigation. Extensive evaluations on embodied AI benchmarks demonstrate that Nav-R1 consistently outperforms strong baselines, with over 8% average improvement in reasoning and navigation performance. Real-world deployment on a mobile robot further validates its robustness under limited onboard resources. Code: https://github.com/AIGeeksGroup/Nav-R1. Website: https://aigeeksgroup.github.io/Nav-R1.
PDF62September 16, 2025