Nav-R1: Redeneren en Navigeren in Belichaamde Scènes
Nav-R1: Reasoning and Navigation in Embodied Scenes
September 13, 2025
Auteurs: Qingxiang Liu, Ting Huang, Zeyu Zhang, Hao Tang
cs.AI
Samenvatting
Embodied navigatie vereist dat agenten perceptie, redenering en actie integreren voor robuuste interactie in complexe 3D-omgevingen. Bestaande benaderingen kampen vaak met incoherente en instabiele redeneersporen die generalisatie over diverse omgevingen belemmeren, en met moeilijkheden bij het balanceren van semantische redenering op lange termijn met low-latency controle voor realtime navigatie. Om deze uitdagingen aan te pakken, stellen we Nav-R1 voor, een embodied foundation-model dat redenering in embodied omgevingen verenigt. We construeren eerst Nav-CoT-110K, een grootschalige dataset van stapsgewijze Chains-of-Thought (CoT) voor embodied taken, die een koude-start initialisatie met gestructureerde redenering mogelijk maakt. Op deze basis ontwerpen we een GRPO-gebaseerd reinforcement learning-raamwerk met drie complementaire beloningen: formaat, begrip en navigatie, om structurele naleving, semantische verankering en padgetrouwheid te verbeteren. Bovendien introduceren we een Fast-in-Slow redeneerparadigma, waarbij bewuste semantische redenering wordt losgekoppeld van low-latency reactieve controle voor efficiënte maar coherente navigatie. Uitgebreide evaluaties op embodied AI-benchmarks tonen aan dat Nav-R1 consistent sterke baseline-methoden overtreft, met een gemiddelde verbetering van meer dan 8% in redeneer- en navigatieprestaties. Implementatie in de echte wereld op een mobiele robot valideert verder de robuustheid onder beperkte onboard-resources. Code: https://github.com/AIGeeksGroup/Nav-R1. Website: https://aigeeksgroup.github.io/Nav-R1.
English
Embodied navigation requires agents to integrate perception, reasoning, and
action for robust interaction in complex 3D environments. Existing approaches
often suffer from incoherent and unstable reasoning traces that hinder
generalization across diverse environments, and difficulty balancing
long-horizon semantic reasoning with low-latency control for real-time
navigation. To address these challenges, we propose Nav-R1, an embodied
foundation model that unifies reasoning in embodied environments. We first
construct Nav-CoT-110K, a large-scale dataset of step-by-step Chains-of-Thought
(CoT) for embodied tasks, which enables cold-start initialization with
structured reasoning. Building on this foundation, we design a GRPO-based
reinforcement learning framework with three complementary rewards: format,
understanding, and navigation, to improve structural adherence, semantic
grounding, and path fidelity. Furthermore, we introduce a Fast-in-Slow
reasoning paradigm, decoupling deliberate semantic reasoning from low-latency
reactive control for efficient yet coherent navigation. Extensive evaluations
on embodied AI benchmarks demonstrate that Nav-R1 consistently outperforms
strong baselines, with over 8% average improvement in reasoning and navigation
performance. Real-world deployment on a mobile robot further validates its
robustness under limited onboard resources. Code:
https://github.com/AIGeeksGroup/Nav-R1. Website:
https://aigeeksgroup.github.io/Nav-R1.