Nav-R1: Рассуждение и навигация в воплощённых сценах
Nav-R1: Reasoning and Navigation in Embodied Scenes
September 13, 2025
Авторы: Qingxiang Liu, Ting Huang, Zeyu Zhang, Hao Tang
cs.AI
Аннотация
Навигация в физическом мире требует от агентов интеграции восприятия, рассуждений и действий для устойчивого взаимодействия в сложных трехмерных средах. Существующие подходы часто страдают от несогласованных и нестабильных трасс рассуждений, что затрудняет обобщение в разнообразных средах, а также от сложности балансирования между долгосрочным семантическим рассуждением и низколатентным управлением для навигации в реальном времени. Для решения этих проблем мы предлагаем Nav-R1, базовую модель для физического мира, которая унифицирует рассуждения в таких средах. Сначала мы создаем Nav-CoT-110K, крупномасштабный набор данных пошаговых цепочек рассуждений (Chains-of-Thought, CoT) для задач физического мира, что позволяет инициализировать модель с нуля с использованием структурированных рассуждений. На основе этого мы разрабатываем фреймворк обучения с подкреплением на основе GRPO с тремя взаимодополняющими наградами: за формат, понимание и навигацию, чтобы улучшить структурную согласованность, семантическую обоснованность и точность пути. Кроме того, мы вводим парадигму "Быстрое в медленном" (Fast-in-Slow), разделяя обдуманное семантическое рассуждение от низколатентного реактивного управления для эффективной, но согласованной навигации. Обширные оценки на тестах для физического ИИ показывают, что Nav-R1 стабильно превосходит сильные базовые модели, с улучшением в среднем более чем на 8% в показателях рассуждений и навигации. Реальное развертывание на мобильном роботе дополнительно подтверждает его устойчивость при ограниченных ресурсах на борту. Код: https://github.com/AIGeeksGroup/Nav-R1. Сайт: https://aigeeksgroup.github.io/Nav-R1.
English
Embodied navigation requires agents to integrate perception, reasoning, and
action for robust interaction in complex 3D environments. Existing approaches
often suffer from incoherent and unstable reasoning traces that hinder
generalization across diverse environments, and difficulty balancing
long-horizon semantic reasoning with low-latency control for real-time
navigation. To address these challenges, we propose Nav-R1, an embodied
foundation model that unifies reasoning in embodied environments. We first
construct Nav-CoT-110K, a large-scale dataset of step-by-step Chains-of-Thought
(CoT) for embodied tasks, which enables cold-start initialization with
structured reasoning. Building on this foundation, we design a GRPO-based
reinforcement learning framework with three complementary rewards: format,
understanding, and navigation, to improve structural adherence, semantic
grounding, and path fidelity. Furthermore, we introduce a Fast-in-Slow
reasoning paradigm, decoupling deliberate semantic reasoning from low-latency
reactive control for efficient yet coherent navigation. Extensive evaluations
on embodied AI benchmarks demonstrate that Nav-R1 consistently outperforms
strong baselines, with over 8% average improvement in reasoning and navigation
performance. Real-world deployment on a mobile robot further validates its
robustness under limited onboard resources. Code:
https://github.com/AIGeeksGroup/Nav-R1. Website:
https://aigeeksgroup.github.io/Nav-R1.