Nav-R1: Denken und Navigation in verkörperten Szenen

papers.abstract

Embodied Navigation erfordert, dass Agenten Wahrnehmung, logisches Denken und Handlung integrieren, um eine robuste Interaktion in komplexen 3D-Umgebungen zu ermöglichen. Bestehende Ansätze leiden oft unter inkohärenten und instabilen Denkprozessen, die die Generalisierung über verschiedene Umgebungen hinweg behindern, sowie unter Schwierigkeiten, langfristige semantische Planung mit niedrig-latenz Steuerung für Echtzeit-Navigation in Einklang zu bringen. Um diese Herausforderungen zu bewältigen, schlagen wir Nav-R1 vor, ein Embodied-Foundation-Modell, das das logische Denken in embodied Umgebungen vereinheitlicht. Zunächst erstellen wir Nav-CoT-110K, einen umfangreichen Datensatz von schrittweisen Chains-of-Thought (CoT) für embodied Aufgaben, der eine Kaltstart-Initialisierung mit strukturiertem Denken ermöglicht. Auf dieser Grundlage aufbauend, entwickeln wir ein GRPO-basiertes Reinforcement-Learning-Framework mit drei komplementären Belohnungen: Format, Verständnis und Navigation, um die strukturelle Einhaltung, semantische Verankerung und Pfadtreue zu verbessern. Darüber hinaus führen wir ein Fast-in-Slow-Denkparadigma ein, das bewusstes semantisches Denken von niedrig-latenz reaktiver Steuerung entkoppelt, um eine effiziente und dennoch kohärente Navigation zu ermöglichen. Umfangreiche Evaluierungen auf embodied KI-Benchmarks zeigen, dass Nav-R1 durchweg starke Baselines übertrifft, mit einer durchschnittlichen Verbesserung von über 8 % in Denk- und Navigationsleistung. Die reale Einsatzfähigkeit auf einem mobilen Roboter bestätigt zudem seine Robustheit unter begrenzten Onboard-Ressourcen. Code: https://github.com/AIGeeksGroup/Nav-R1. Website: https://aigeeksgroup.github.io/Nav-R1.

English

Embodied navigation requires agents to integrate perception, reasoning, and action for robust interaction in complex 3D environments. Existing approaches often suffer from incoherent and unstable reasoning traces that hinder generalization across diverse environments, and difficulty balancing long-horizon semantic reasoning with low-latency control for real-time navigation. To address these challenges, we propose Nav-R1, an embodied foundation model that unifies reasoning in embodied environments. We first construct Nav-CoT-110K, a large-scale dataset of step-by-step Chains-of-Thought (CoT) for embodied tasks, which enables cold-start initialization with structured reasoning. Building on this foundation, we design a GRPO-based reinforcement learning framework with three complementary rewards: format, understanding, and navigation, to improve structural adherence, semantic grounding, and path fidelity. Furthermore, we introduce a Fast-in-Slow reasoning paradigm, decoupling deliberate semantic reasoning from low-latency reactive control for efficient yet coherent navigation. Extensive evaluations on embodied AI benchmarks demonstrate that Nav-R1 consistently outperforms strong baselines, with over 8% average improvement in reasoning and navigation performance. Real-world deployment on a mobile robot further validates its robustness under limited onboard resources. Code: https://github.com/AIGeeksGroup/Nav-R1. Website: https://aigeeksgroup.github.io/Nav-R1.

Nav-R1: Denken und Navigation in verkörperten Szenen

Nav-R1: Reasoning and Navigation in Embodied Scenes

papers.abstract

Support