ChatPaper.aiChatPaper

Nav-R1: Razonamiento y Navegación en Escenarios Encarnados

Nav-R1: Reasoning and Navigation in Embodied Scenes

September 13, 2025
Autores: Qingxiang Liu, Ting Huang, Zeyu Zhang, Hao Tang
cs.AI

Resumen

La navegación encarnada requiere que los agentes integren percepción, razonamiento y acción para una interacción robusta en entornos 3D complejos. Los enfoques existentes a menudo presentan trazas de razonamiento incoherentes e inestables que dificultan la generalización en diversos entornos, así como problemas para equilibrar el razonamiento semántico a largo plazo con el control de baja latencia para la navegación en tiempo real. Para abordar estos desafíos, proponemos Nav-R1, un modelo fundacional encarnado que unifica el razonamiento en entornos encarnados. Primero construimos Nav-CoT-110K, un conjunto de datos a gran escala de Cadenas de Pensamiento (CoT) paso a paso para tareas encarnadas, que permite una inicialización en frío con razonamiento estructurado. Sobre esta base, diseñamos un marco de aprendizaje por refuerzo basado en GRPO con tres recompensas complementarias: formato, comprensión y navegación, para mejorar la adherencia estructural, la fundamentación semántica y la fidelidad de la ruta. Además, introducimos un paradigma de razonamiento Rápido-en-Lento, desacoplando el razonamiento semántico deliberado del control reactivo de baja latencia para una navegación eficiente pero coherente. Evaluaciones extensas en benchmarks de IA encarnada demuestran que Nav-R1 supera consistentemente líneas de base sólidas, con una mejora promedio de más del 8% en el rendimiento de razonamiento y navegación. El despliegue en el mundo real en un robot móvil valida además su robustez bajo recursos limitados a bordo. Código: https://github.com/AIGeeksGroup/Nav-R1. Sitio web: https://aigeeksgroup.github.io/Nav-R1.
English
Embodied navigation requires agents to integrate perception, reasoning, and action for robust interaction in complex 3D environments. Existing approaches often suffer from incoherent and unstable reasoning traces that hinder generalization across diverse environments, and difficulty balancing long-horizon semantic reasoning with low-latency control for real-time navigation. To address these challenges, we propose Nav-R1, an embodied foundation model that unifies reasoning in embodied environments. We first construct Nav-CoT-110K, a large-scale dataset of step-by-step Chains-of-Thought (CoT) for embodied tasks, which enables cold-start initialization with structured reasoning. Building on this foundation, we design a GRPO-based reinforcement learning framework with three complementary rewards: format, understanding, and navigation, to improve structural adherence, semantic grounding, and path fidelity. Furthermore, we introduce a Fast-in-Slow reasoning paradigm, decoupling deliberate semantic reasoning from low-latency reactive control for efficient yet coherent navigation. Extensive evaluations on embodied AI benchmarks demonstrate that Nav-R1 consistently outperforms strong baselines, with over 8% average improvement in reasoning and navigation performance. Real-world deployment on a mobile robot further validates its robustness under limited onboard resources. Code: https://github.com/AIGeeksGroup/Nav-R1. Website: https://aigeeksgroup.github.io/Nav-R1.
PDF52September 16, 2025