ChatPaper.aiChatPaper

Nav-R1 : Raisonnement et Navigation dans des Scènes Embodied

Nav-R1: Reasoning and Navigation in Embodied Scenes

September 13, 2025
papers.authors: Qingxiang Liu, Ting Huang, Zeyu Zhang, Hao Tang
cs.AI

papers.abstract

La navigation incarnée nécessite que les agents intègrent perception, raisonnement et action pour une interaction robuste dans des environnements 3D complexes. Les approches existantes souffrent souvent de traces de raisonnement incohérentes et instables qui entravent la généralisation à travers divers environnements, ainsi que de difficultés à équilibrer un raisonnement sémantique à long terme avec un contrôle à faible latence pour une navigation en temps réel. Pour relever ces défis, nous proposons Nav-R1, un modèle de base incarné qui unifie le raisonnement dans les environnements incarnés. Nous construisons d'abord Nav-CoT-110K, un jeu de données à grande échelle de Chaînes de Pensée (CoT) étape par étape pour les tâches incarnées, permettant une initialisation à froid avec un raisonnement structuré. Sur cette base, nous concevons un cadre d'apprentissage par renforcement basé sur GRPO avec trois récompenses complémentaires : format, compréhension et navigation, pour améliorer l'adhésion structurelle, l'ancrage sémantique et la fidélité du chemin. De plus, nous introduisons un paradigme de raisonnement Rapide-dans-Lent, découplant le raisonnement sémantique délibéré du contrôle réactif à faible latence pour une navigation efficace mais cohérente. Des évaluations approfondies sur des benchmarks d'IA incarnée démontrent que Nav-R1 surpasse systématiquement les bases de référence solides, avec une amélioration moyenne de plus de 8 % dans les performances de raisonnement et de navigation. Un déploiement dans le monde réel sur un robot mobile valide en outre sa robustesse sous des ressources embarquées limitées. Code : https://github.com/AIGeeksGroup/Nav-R1. Site web : https://aigeeksgroup.github.io/Nav-R1.
English
Embodied navigation requires agents to integrate perception, reasoning, and action for robust interaction in complex 3D environments. Existing approaches often suffer from incoherent and unstable reasoning traces that hinder generalization across diverse environments, and difficulty balancing long-horizon semantic reasoning with low-latency control for real-time navigation. To address these challenges, we propose Nav-R1, an embodied foundation model that unifies reasoning in embodied environments. We first construct Nav-CoT-110K, a large-scale dataset of step-by-step Chains-of-Thought (CoT) for embodied tasks, which enables cold-start initialization with structured reasoning. Building on this foundation, we design a GRPO-based reinforcement learning framework with three complementary rewards: format, understanding, and navigation, to improve structural adherence, semantic grounding, and path fidelity. Furthermore, we introduce a Fast-in-Slow reasoning paradigm, decoupling deliberate semantic reasoning from low-latency reactive control for efficient yet coherent navigation. Extensive evaluations on embodied AI benchmarks demonstrate that Nav-R1 consistently outperforms strong baselines, with over 8% average improvement in reasoning and navigation performance. Real-world deployment on a mobile robot further validates its robustness under limited onboard resources. Code: https://github.com/AIGeeksGroup/Nav-R1. Website: https://aigeeksgroup.github.io/Nav-R1.
PDF62September 16, 2025