Nav-R1: Raciocínio e Navegação em Cenários Corporificados

Resumo

A navegação incorporada exige que os agentes integrem percepção, raciocínio e ação para interações robustas em ambientes 3D complexos. As abordagens existentes frequentemente sofrem com traços de raciocínio incoerentes e instáveis que dificultam a generalização em diversos ambientes, além de enfrentarem desafios para equilibrar o raciocínio semântico de longo prazo com o controle de baixa latência necessário para navegação em tempo real. Para enfrentar esses desafios, propomos o Nav-R1, um modelo de base incorporado que unifica o raciocínio em ambientes incorporados. Primeiro, construímos o Nav-CoT-110K, um conjunto de dados em larga escala de Cadeias de Pensamento (CoT) passo a passo para tarefas incorporadas, o que permite uma inicialização a frio com raciocínio estruturado. Com base nessa fundação, projetamos um framework de aprendizado por reforço baseado em GRPO com três recompensas complementares: formato, compreensão e navegação, para melhorar a aderência estrutural, a fundamentação semântica e a fidelidade do caminho. Além disso, introduzimos um paradigma de raciocínio Rápido-no-Lento, que desacopla o raciocínio semântico deliberado do controle reativo de baixa latência para uma navegação eficiente e coerente. Avaliações extensas em benchmarks de IA incorporada demonstram que o Nav-R1 supera consistentemente as linhas de base fortes, com uma melhoria média de mais de 8% no desempenho de raciocínio e navegação. A implantação no mundo real em um robô móvel valida ainda mais sua robustez sob recursos limitados a bordo. Código: https://github.com/AIGeeksGroup/Nav-R1. Website: https://aigeeksgroup.github.io/Nav-R1.

English

Embodied navigation requires agents to integrate perception, reasoning, and action for robust interaction in complex 3D environments. Existing approaches often suffer from incoherent and unstable reasoning traces that hinder generalization across diverse environments, and difficulty balancing long-horizon semantic reasoning with low-latency control for real-time navigation. To address these challenges, we propose Nav-R1, an embodied foundation model that unifies reasoning in embodied environments. We first construct Nav-CoT-110K, a large-scale dataset of step-by-step Chains-of-Thought (CoT) for embodied tasks, which enables cold-start initialization with structured reasoning. Building on this foundation, we design a GRPO-based reinforcement learning framework with three complementary rewards: format, understanding, and navigation, to improve structural adherence, semantic grounding, and path fidelity. Furthermore, we introduce a Fast-in-Slow reasoning paradigm, decoupling deliberate semantic reasoning from low-latency reactive control for efficient yet coherent navigation. Extensive evaluations on embodied AI benchmarks demonstrate that Nav-R1 consistently outperforms strong baselines, with over 8% average improvement in reasoning and navigation performance. Real-world deployment on a mobile robot further validates its robustness under limited onboard resources. Code: https://github.com/AIGeeksGroup/Nav-R1. Website: https://aigeeksgroup.github.io/Nav-R1.

Nav-R1: Raciocínio e Navegação em Cenários Corporificados

Nav-R1: Reasoning and Navigation in Embodied Scenes

Resumo

Support