Nav-R1: Denken und Navigation in verkörperten Szenen
Nav-R1: Reasoning and Navigation in Embodied Scenes
September 13, 2025
papers.authors: Qingxiang Liu, Ting Huang, Zeyu Zhang, Hao Tang
cs.AI
papers.abstract
Embodied Navigation erfordert, dass Agenten Wahrnehmung, logisches Denken und Handlung integrieren, um eine robuste Interaktion in komplexen 3D-Umgebungen zu ermöglichen. Bestehende Ansätze leiden oft unter inkohärenten und instabilen Denkprozessen, die die Generalisierung über verschiedene Umgebungen hinweg behindern, sowie unter Schwierigkeiten, langfristige semantische Planung mit niedrig-latenz Steuerung für Echtzeit-Navigation in Einklang zu bringen. Um diese Herausforderungen zu bewältigen, schlagen wir Nav-R1 vor, ein Embodied-Foundation-Modell, das das logische Denken in embodied Umgebungen vereinheitlicht. Zunächst erstellen wir Nav-CoT-110K, einen umfangreichen Datensatz von schrittweisen Chains-of-Thought (CoT) für embodied Aufgaben, der eine Kaltstart-Initialisierung mit strukturiertem Denken ermöglicht. Auf dieser Grundlage aufbauend, entwickeln wir ein GRPO-basiertes Reinforcement-Learning-Framework mit drei komplementären Belohnungen: Format, Verständnis und Navigation, um die strukturelle Einhaltung, semantische Verankerung und Pfadtreue zu verbessern. Darüber hinaus führen wir ein Fast-in-Slow-Denkparadigma ein, das bewusstes semantisches Denken von niedrig-latenz reaktiver Steuerung entkoppelt, um eine effiziente und dennoch kohärente Navigation zu ermöglichen. Umfangreiche Evaluierungen auf embodied KI-Benchmarks zeigen, dass Nav-R1 durchweg starke Baselines übertrifft, mit einer durchschnittlichen Verbesserung von über 8 % in Denk- und Navigationsleistung. Die reale Einsatzfähigkeit auf einem mobilen Roboter bestätigt zudem seine Robustheit unter begrenzten Onboard-Ressourcen. Code: https://github.com/AIGeeksGroup/Nav-R1. Website: https://aigeeksgroup.github.io/Nav-R1.
English
Embodied navigation requires agents to integrate perception, reasoning, and
action for robust interaction in complex 3D environments. Existing approaches
often suffer from incoherent and unstable reasoning traces that hinder
generalization across diverse environments, and difficulty balancing
long-horizon semantic reasoning with low-latency control for real-time
navigation. To address these challenges, we propose Nav-R1, an embodied
foundation model that unifies reasoning in embodied environments. We first
construct Nav-CoT-110K, a large-scale dataset of step-by-step Chains-of-Thought
(CoT) for embodied tasks, which enables cold-start initialization with
structured reasoning. Building on this foundation, we design a GRPO-based
reinforcement learning framework with three complementary rewards: format,
understanding, and navigation, to improve structural adherence, semantic
grounding, and path fidelity. Furthermore, we introduce a Fast-in-Slow
reasoning paradigm, decoupling deliberate semantic reasoning from low-latency
reactive control for efficient yet coherent navigation. Extensive evaluations
on embodied AI benchmarks demonstrate that Nav-R1 consistently outperforms
strong baselines, with over 8% average improvement in reasoning and navigation
performance. Real-world deployment on a mobile robot further validates its
robustness under limited onboard resources. Code:
https://github.com/AIGeeksGroup/Nav-R1. Website:
https://aigeeksgroup.github.io/Nav-R1.