Nav-R1 : Raisonnement et Navigation dans des Scènes Embodied
Nav-R1: Reasoning and Navigation in Embodied Scenes
September 13, 2025
papers.authors: Qingxiang Liu, Ting Huang, Zeyu Zhang, Hao Tang
cs.AI
papers.abstract
La navigation incarnée nécessite que les agents intègrent perception, raisonnement et action pour une interaction robuste dans des environnements 3D complexes. Les approches existantes souffrent souvent de traces de raisonnement incohérentes et instables qui entravent la généralisation à travers divers environnements, ainsi que de difficultés à équilibrer un raisonnement sémantique à long terme avec un contrôle à faible latence pour une navigation en temps réel. Pour relever ces défis, nous proposons Nav-R1, un modèle de base incarné qui unifie le raisonnement dans les environnements incarnés. Nous construisons d'abord Nav-CoT-110K, un jeu de données à grande échelle de Chaînes de Pensée (CoT) étape par étape pour les tâches incarnées, permettant une initialisation à froid avec un raisonnement structuré. Sur cette base, nous concevons un cadre d'apprentissage par renforcement basé sur GRPO avec trois récompenses complémentaires : format, compréhension et navigation, pour améliorer l'adhésion structurelle, l'ancrage sémantique et la fidélité du chemin. De plus, nous introduisons un paradigme de raisonnement Rapide-dans-Lent, découplant le raisonnement sémantique délibéré du contrôle réactif à faible latence pour une navigation efficace mais cohérente. Des évaluations approfondies sur des benchmarks d'IA incarnée démontrent que Nav-R1 surpasse systématiquement les bases de référence solides, avec une amélioration moyenne de plus de 8 % dans les performances de raisonnement et de navigation. Un déploiement dans le monde réel sur un robot mobile valide en outre sa robustesse sous des ressources embarquées limitées. Code : https://github.com/AIGeeksGroup/Nav-R1. Site web : https://aigeeksgroup.github.io/Nav-R1.
English
Embodied navigation requires agents to integrate perception, reasoning, and
action for robust interaction in complex 3D environments. Existing approaches
often suffer from incoherent and unstable reasoning traces that hinder
generalization across diverse environments, and difficulty balancing
long-horizon semantic reasoning with low-latency control for real-time
navigation. To address these challenges, we propose Nav-R1, an embodied
foundation model that unifies reasoning in embodied environments. We first
construct Nav-CoT-110K, a large-scale dataset of step-by-step Chains-of-Thought
(CoT) for embodied tasks, which enables cold-start initialization with
structured reasoning. Building on this foundation, we design a GRPO-based
reinforcement learning framework with three complementary rewards: format,
understanding, and navigation, to improve structural adherence, semantic
grounding, and path fidelity. Furthermore, we introduce a Fast-in-Slow
reasoning paradigm, decoupling deliberate semantic reasoning from low-latency
reactive control for efficient yet coherent navigation. Extensive evaluations
on embodied AI benchmarks demonstrate that Nav-R1 consistently outperforms
strong baselines, with over 8% average improvement in reasoning and navigation
performance. Real-world deployment on a mobile robot further validates its
robustness under limited onboard resources. Code:
https://github.com/AIGeeksGroup/Nav-R1. Website:
https://aigeeksgroup.github.io/Nav-R1.