ABot-N0: Informe Técnico sobre el Modelo Fundacional VLA para Navegación Embebida Versátil
ABot-N0: Technical Report on the VLA Foundation Model for Versatile Embodied Navigation
February 12, 2026
Autores: Zedong Chu, Shichao Xie, Xiaolong Wu, Yanfen Shen, Minghua Luo, Zhengbo Wang, Fei Liu, Xiaoxu Leng, Junjun Hu, Mingyang Yin, Jia Lu, Yingnan Guo, Kai Yang, Jiawei Han, Xu Chen, Yanqing Zhu, Yuxiang Zhao, Xin Liu, Yirong Yang, Ye He, Jiahang Wang, Yang Cai, Tianlin Zhang, Li Gao, Liu Liu, Mingchao Sun, Fan Jiang, Chiyu Wang, Zhicheng Liu, Hongyu Pan, Honglin Han, Zhining Gu, Kuan Yang, Jianfang Zhang, Di Jing, Zihao Guan, Wei Guo, Guoqing Liu, Di Yang, Xiangpo Yang, Menglin Yang, Hongguang Xing, Weiguo Li, Mu Xu
cs.AI
Resumen
La navegación corporeizada ha estado históricamente fragmentada por arquitecturas específicas para cada tarea. Presentamos ABot-N0, un modelo fundacional unificado de Visión-Lenguaje-Acción (VLA) que logra una «Gran Unificación» en 5 tareas fundamentales: Navegación a Punto, Navegación a Objeto, Seguimiento de Instrucciones, Navegación a Puntos de Interés y Seguimiento de Personas. ABot-N0 utiliza una arquitectura jerárquica «Cerebro-Acción», que empareja un Cerebro Cognitivo basado en LLM para el razonamiento semántico con un Experto en Acción basado en Emparejamiento de Flujos para la generación precisa de trayectorias continuas.
Para sustentar el aprendizaje a gran escala, desarrollamos el Motor de Datos ABot-N0, que curó 16.9 millones de trayectorias expertas y 5.0 millones de muestras de razonamiento en 7,802 escenas 3D de alta fidelidad (10.7 km²). ABot-N0 alcanza un nuevo rendimiento estado del arte en 7 benchmarks, superando significativamente a modelos especializados. Además, nuestro Sistema de Navegación Agéntico integra un planificador con memoria topológica jerárquica, permitiendo misiones robustas de largo horizonte en entornos dinámicos del mundo real.
English
Embodied navigation has long been fragmented by task-specific architectures. We introduce ABot-N0, a unified Vision-Language-Action (VLA) foundation model that achieves a ``Grand Unification'' across 5 core tasks: Point-Goal, Object-Goal, Instruction-Following, POI-Goal, and Person-Following. ABot-N0 utilizes a hierarchical ``Brain-Action'' architecture, pairing an LLM-based Cognitive Brain for semantic reasoning with a Flow Matching-based Action Expert for precise, continuous trajectory generation.
To support large-scale learning, we developed the ABot-N0 Data Engine, curating 16.9M expert trajectories and 5.0M reasoning samples across 7,802 high-fidelity 3D scenes (10.7 km^2). ABot-N0 achieves new SOTA performance across 7 benchmarks, significantly outperforming specialized models. Furthermore, our Agentic Navigation System integrates a planner with hierarchical topological memory, enabling robust, long-horizon missions in dynamic real-world environments.