ABot-N0: Relatório Técnico sobre o Modelo de Base VLA para Navegação Embarcada Versátil
ABot-N0: Technical Report on the VLA Foundation Model for Versatile Embodied Navigation
February 12, 2026
Autores: Zedong Chu, Shichao Xie, Xiaolong Wu, Yanfen Shen, Minghua Luo, Zhengbo Wang, Fei Liu, Xiaoxu Leng, Junjun Hu, Mingyang Yin, Jia Lu, Yingnan Guo, Kai Yang, Jiawei Han, Xu Chen, Yanqing Zhu, Yuxiang Zhao, Xin Liu, Yirong Yang, Ye He, Jiahang Wang, Yang Cai, Tianlin Zhang, Li Gao, Liu Liu, Mingchao Sun, Fan Jiang, Chiyu Wang, Zhicheng Liu, Hongyu Pan, Honglin Han, Zhining Gu, Kuan Yang, Jianfang Zhang, Di Jing, Zihao Guan, Wei Guo, Guoqing Liu, Di Yang, Xiangpo Yang, Menglin Yang, Hongguang Xing, Weiguo Li, Mu Xu
cs.AI
Resumo
A navegação incorporada tem sido historicamente fragmentada por arquiteturas específicas para cada tarefa. Apresentamos o ABot-N0, um modelo de base unificado de Visão-Linguagem-Ação (VLA) que alcança uma "Grande Unificação" em 5 tarefas principais: Navegação por Ponto-Alvo, Navegação por Objeto-Alvo, Seguimento de Instruções, Navegação por Ponto de Interesse e Perseguição de Pessoas. O ABot-N0 utiliza uma arquitetura hierárquica "Cérebro-Ação", emparelhando um Cérebro Cognitivo baseado em LLM para raciocínio semântico com um Especialista em Ação baseado em Correspondência de Fluxos para geração de trajetórias contínuas e precisas.
Para suportar o aprendizado em larga escala, desenvolvemos o Motor de Dados ABot-N0, que curou 16,9 milhões de trajetórias especializadas e 5,0 milhões de amostras de raciocínio em 7.802 cenas 3D de alta fidelidade (10,7 km²). O ABot-N0 atinge um novo estado da arte em 7 benchmarks, superando significativamente modelos especializados. Além disso, nosso Sistema de Navegação Agente integra um planejador com memória topológica hierárquica, permitindo missões robustas de longo horizonte em ambientes dinâmicos do mundo real.
English
Embodied navigation has long been fragmented by task-specific architectures. We introduce ABot-N0, a unified Vision-Language-Action (VLA) foundation model that achieves a ``Grand Unification'' across 5 core tasks: Point-Goal, Object-Goal, Instruction-Following, POI-Goal, and Person-Following. ABot-N0 utilizes a hierarchical ``Brain-Action'' architecture, pairing an LLM-based Cognitive Brain for semantic reasoning with a Flow Matching-based Action Expert for precise, continuous trajectory generation.
To support large-scale learning, we developed the ABot-N0 Data Engine, curating 16.9M expert trajectories and 5.0M reasoning samples across 7,802 high-fidelity 3D scenes (10.7 km^2). ABot-N0 achieves new SOTA performance across 7 benchmarks, significantly outperforming specialized models. Furthermore, our Agentic Navigation System integrates a planner with hierarchical topological memory, enabling robust, long-horizon missions in dynamic real-world environments.