ChatPaper.aiChatPaper

Nav-R1: Redeneren en Navigeren in Belichaamde Scènes

Nav-R1: Reasoning and Navigation in Embodied Scenes

September 13, 2025
Auteurs: Qingxiang Liu, Ting Huang, Zeyu Zhang, Hao Tang
cs.AI

Samenvatting

Embodied navigatie vereist dat agenten perceptie, redenering en actie integreren voor robuuste interactie in complexe 3D-omgevingen. Bestaande benaderingen kampen vaak met incoherente en instabiele redeneersporen die generalisatie over diverse omgevingen belemmeren, en met moeilijkheden bij het balanceren van semantische redenering op lange termijn met low-latency controle voor realtime navigatie. Om deze uitdagingen aan te pakken, stellen we Nav-R1 voor, een embodied foundation-model dat redenering in embodied omgevingen verenigt. We construeren eerst Nav-CoT-110K, een grootschalige dataset van stapsgewijze Chains-of-Thought (CoT) voor embodied taken, die een koude-start initialisatie met gestructureerde redenering mogelijk maakt. Op deze basis ontwerpen we een GRPO-gebaseerd reinforcement learning-raamwerk met drie complementaire beloningen: formaat, begrip en navigatie, om structurele naleving, semantische verankering en padgetrouwheid te verbeteren. Bovendien introduceren we een Fast-in-Slow redeneerparadigma, waarbij bewuste semantische redenering wordt losgekoppeld van low-latency reactieve controle voor efficiënte maar coherente navigatie. Uitgebreide evaluaties op embodied AI-benchmarks tonen aan dat Nav-R1 consistent sterke baseline-methoden overtreft, met een gemiddelde verbetering van meer dan 8% in redeneer- en navigatieprestaties. Implementatie in de echte wereld op een mobiele robot valideert verder de robuustheid onder beperkte onboard-resources. Code: https://github.com/AIGeeksGroup/Nav-R1. Website: https://aigeeksgroup.github.io/Nav-R1.
English
Embodied navigation requires agents to integrate perception, reasoning, and action for robust interaction in complex 3D environments. Existing approaches often suffer from incoherent and unstable reasoning traces that hinder generalization across diverse environments, and difficulty balancing long-horizon semantic reasoning with low-latency control for real-time navigation. To address these challenges, we propose Nav-R1, an embodied foundation model that unifies reasoning in embodied environments. We first construct Nav-CoT-110K, a large-scale dataset of step-by-step Chains-of-Thought (CoT) for embodied tasks, which enables cold-start initialization with structured reasoning. Building on this foundation, we design a GRPO-based reinforcement learning framework with three complementary rewards: format, understanding, and navigation, to improve structural adherence, semantic grounding, and path fidelity. Furthermore, we introduce a Fast-in-Slow reasoning paradigm, decoupling deliberate semantic reasoning from low-latency reactive control for efficient yet coherent navigation. Extensive evaluations on embodied AI benchmarks demonstrate that Nav-R1 consistently outperforms strong baselines, with over 8% average improvement in reasoning and navigation performance. Real-world deployment on a mobile robot further validates its robustness under limited onboard resources. Code: https://github.com/AIGeeksGroup/Nav-R1. Website: https://aigeeksgroup.github.io/Nav-R1.
PDF62September 16, 2025