Nav-R1: Raciocínio e Navegação em Cenários Corporificados
Nav-R1: Reasoning and Navigation in Embodied Scenes
September 13, 2025
Autores: Qingxiang Liu, Ting Huang, Zeyu Zhang, Hao Tang
cs.AI
Resumo
A navegação incorporada exige que os agentes integrem percepção, raciocínio e ação para interações robustas em ambientes 3D complexos. As abordagens existentes frequentemente sofrem com traços de raciocínio incoerentes e instáveis que dificultam a generalização em diversos ambientes, além de enfrentarem desafios para equilibrar o raciocínio semântico de longo prazo com o controle de baixa latência necessário para navegação em tempo real. Para enfrentar esses desafios, propomos o Nav-R1, um modelo de base incorporado que unifica o raciocínio em ambientes incorporados. Primeiro, construímos o Nav-CoT-110K, um conjunto de dados em larga escala de Cadeias de Pensamento (CoT) passo a passo para tarefas incorporadas, o que permite uma inicialização a frio com raciocínio estruturado. Com base nessa fundação, projetamos um framework de aprendizado por reforço baseado em GRPO com três recompensas complementares: formato, compreensão e navegação, para melhorar a aderência estrutural, a fundamentação semântica e a fidelidade do caminho. Além disso, introduzimos um paradigma de raciocínio Rápido-no-Lento, que desacopla o raciocínio semântico deliberado do controle reativo de baixa latência para uma navegação eficiente e coerente. Avaliações extensas em benchmarks de IA incorporada demonstram que o Nav-R1 supera consistentemente as linhas de base fortes, com uma melhoria média de mais de 8% no desempenho de raciocínio e navegação. A implantação no mundo real em um robô móvel valida ainda mais sua robustez sob recursos limitados a bordo. Código: https://github.com/AIGeeksGroup/Nav-R1. Website: https://aigeeksgroup.github.io/Nav-R1.
English
Embodied navigation requires agents to integrate perception, reasoning, and
action for robust interaction in complex 3D environments. Existing approaches
often suffer from incoherent and unstable reasoning traces that hinder
generalization across diverse environments, and difficulty balancing
long-horizon semantic reasoning with low-latency control for real-time
navigation. To address these challenges, we propose Nav-R1, an embodied
foundation model that unifies reasoning in embodied environments. We first
construct Nav-CoT-110K, a large-scale dataset of step-by-step Chains-of-Thought
(CoT) for embodied tasks, which enables cold-start initialization with
structured reasoning. Building on this foundation, we design a GRPO-based
reinforcement learning framework with three complementary rewards: format,
understanding, and navigation, to improve structural adherence, semantic
grounding, and path fidelity. Furthermore, we introduce a Fast-in-Slow
reasoning paradigm, decoupling deliberate semantic reasoning from low-latency
reactive control for efficient yet coherent navigation. Extensive evaluations
on embodied AI benchmarks demonstrate that Nav-R1 consistently outperforms
strong baselines, with over 8% average improvement in reasoning and navigation
performance. Real-world deployment on a mobile robot further validates its
robustness under limited onboard resources. Code:
https://github.com/AIGeeksGroup/Nav-R1. Website:
https://aigeeksgroup.github.io/Nav-R1.