Nav-R1: Ragionamento e Navigazione in Ambienti Incorporati

Abstract

La navigazione incarnata richiede agli agenti di integrare percezione, ragionamento e azione per un'interazione robusta in ambienti 3D complessi. Gli approcci esistenti spesso soffrono di tracce di ragionamento incoerenti e instabili che ostacolano la generalizzazione in ambienti diversi, e di difficoltà nel bilanciare il ragionamento semantico a lungo termine con il controllo a bassa latenza per la navigazione in tempo reale. Per affrontare queste sfide, proponiamo Nav-R1, un modello fondazionale incarnato che unifica il ragionamento in ambienti incarnati. Inizialmente costruiamo Nav-CoT-110K, un dataset su larga scala di Catene di Pensiero (CoT) passo-passo per task incarnati, che consente un'inizializzazione a freddo con ragionamento strutturato. Basandoci su questa fondazione, progettiamo un framework di apprendimento per rinforzo basato su GRPO con tre ricompense complementari: formato, comprensione e navigazione, per migliorare l'aderenza strutturale, il grounding semantico e la fedeltà del percorso. Inoltre, introduciamo un paradigma di ragionamento "Fast-in-Slow", che separa il ragionamento semantico deliberato dal controllo reattivo a bassa latenza per una navigazione efficiente ma coerente. Valutazioni estensive su benchmark di AI incarnata dimostrano che Nav-R1 supera costantemente i baseline forti, con un miglioramento medio superiore all'8% nelle prestazioni di ragionamento e navigazione. Il dispiegamento nel mondo reale su un robot mobile ne valida ulteriormente la robustezza con risorse di bordo limitate. Codice: https://github.com/AIGeeksGroup/Nav-R1. Sito web: https://aigeeksgroup.github.io/Nav-R1.

English

Embodied navigation requires agents to integrate perception, reasoning, and action for robust interaction in complex 3D environments. Existing approaches often suffer from incoherent and unstable reasoning traces that hinder generalization across diverse environments, and difficulty balancing long-horizon semantic reasoning with low-latency control for real-time navigation. To address these challenges, we propose Nav-R1, an embodied foundation model that unifies reasoning in embodied environments. We first construct Nav-CoT-110K, a large-scale dataset of step-by-step Chains-of-Thought (CoT) for embodied tasks, which enables cold-start initialization with structured reasoning. Building on this foundation, we design a GRPO-based reinforcement learning framework with three complementary rewards: format, understanding, and navigation, to improve structural adherence, semantic grounding, and path fidelity. Furthermore, we introduce a Fast-in-Slow reasoning paradigm, decoupling deliberate semantic reasoning from low-latency reactive control for efficient yet coherent navigation. Extensive evaluations on embodied AI benchmarks demonstrate that Nav-R1 consistently outperforms strong baselines, with over 8% average improvement in reasoning and navigation performance. Real-world deployment on a mobile robot further validates its robustness under limited onboard resources. Code: https://github.com/AIGeeksGroup/Nav-R1. Website: https://aigeeksgroup.github.io/Nav-R1.

Nav-R1: Ragionamento e Navigazione in Ambienti Incorporati

Nav-R1: Reasoning and Navigation in Embodied Scenes

Abstract

Support