Nav-R1: Ragionamento e Navigazione in Ambienti Incorporati
Nav-R1: Reasoning and Navigation in Embodied Scenes
September 13, 2025
Autori: Qingxiang Liu, Ting Huang, Zeyu Zhang, Hao Tang
cs.AI
Abstract
La navigazione incarnata richiede agli agenti di integrare percezione, ragionamento e azione per un'interazione robusta in ambienti 3D complessi. Gli approcci esistenti spesso soffrono di tracce di ragionamento incoerenti e instabili che ostacolano la generalizzazione in ambienti diversi, e di difficoltà nel bilanciare il ragionamento semantico a lungo termine con il controllo a bassa latenza per la navigazione in tempo reale. Per affrontare queste sfide, proponiamo Nav-R1, un modello fondazionale incarnato che unifica il ragionamento in ambienti incarnati. Inizialmente costruiamo Nav-CoT-110K, un dataset su larga scala di Catene di Pensiero (CoT) passo-passo per task incarnati, che consente un'inizializzazione a freddo con ragionamento strutturato. Basandoci su questa fondazione, progettiamo un framework di apprendimento per rinforzo basato su GRPO con tre ricompense complementari: formato, comprensione e navigazione, per migliorare l'aderenza strutturale, il grounding semantico e la fedeltà del percorso. Inoltre, introduciamo un paradigma di ragionamento "Fast-in-Slow", che separa il ragionamento semantico deliberato dal controllo reattivo a bassa latenza per una navigazione efficiente ma coerente. Valutazioni estensive su benchmark di AI incarnata dimostrano che Nav-R1 supera costantemente i baseline forti, con un miglioramento medio superiore all'8% nelle prestazioni di ragionamento e navigazione. Il dispiegamento nel mondo reale su un robot mobile ne valida ulteriormente la robustezza con risorse di bordo limitate. Codice: https://github.com/AIGeeksGroup/Nav-R1. Sito web: https://aigeeksgroup.github.io/Nav-R1.
English
Embodied navigation requires agents to integrate perception, reasoning, and
action for robust interaction in complex 3D environments. Existing approaches
often suffer from incoherent and unstable reasoning traces that hinder
generalization across diverse environments, and difficulty balancing
long-horizon semantic reasoning with low-latency control for real-time
navigation. To address these challenges, we propose Nav-R1, an embodied
foundation model that unifies reasoning in embodied environments. We first
construct Nav-CoT-110K, a large-scale dataset of step-by-step Chains-of-Thought
(CoT) for embodied tasks, which enables cold-start initialization with
structured reasoning. Building on this foundation, we design a GRPO-based
reinforcement learning framework with three complementary rewards: format,
understanding, and navigation, to improve structural adherence, semantic
grounding, and path fidelity. Furthermore, we introduce a Fast-in-Slow
reasoning paradigm, decoupling deliberate semantic reasoning from low-latency
reactive control for efficient yet coherent navigation. Extensive evaluations
on embodied AI benchmarks demonstrate that Nav-R1 consistently outperforms
strong baselines, with over 8% average improvement in reasoning and navigation
performance. Real-world deployment on a mobile robot further validates its
robustness under limited onboard resources. Code:
https://github.com/AIGeeksGroup/Nav-R1. Website:
https://aigeeksgroup.github.io/Nav-R1.