ChatPaper.aiChatPaper

ABot-N0 : Rapport Technique sur le Modèle Fondation VLA pour la Navigation Embarquée Polyvalente

ABot-N0: Technical Report on the VLA Foundation Model for Versatile Embodied Navigation

February 12, 2026
papers.authors: Zedong Chu, Shichao Xie, Xiaolong Wu, Yanfen Shen, Minghua Luo, Zhengbo Wang, Fei Liu, Xiaoxu Leng, Junjun Hu, Mingyang Yin, Jia Lu, Yingnan Guo, Kai Yang, Jiawei Han, Xu Chen, Yanqing Zhu, Yuxiang Zhao, Xin Liu, Yirong Yang, Ye He, Jiahang Wang, Yang Cai, Tianlin Zhang, Li Gao, Liu Liu, Mingchao Sun, Fan Jiang, Chiyu Wang, Zhicheng Liu, Hongyu Pan, Honglin Han, Zhining Gu, Kuan Yang, Jianfang Zhang, Di Jing, Zihao Guan, Wei Guo, Guoqing Liu, Di Yang, Xiangpo Yang, Menglin Yang, Hongguang Xing, Weiguo Li, Mu Xu
cs.AI

papers.abstract

La navigation incarnée a longtemps été fragmentée par des architectures spécifiques à chaque tâche. Nous présentons ABot-N0, un modèle fondateur unifié Vision-Langage-Action (VLA) qui réalise une « Grande Unification » sur 5 tâches fondamentales : Point-Goal, Object-Goal, Instruction-Following, POI-Goal et Person-Following. ABot-N0 utilise une architecture hiérarchique « Cerveau-Action », associant un Cerveau Cognitif basé sur un LLM pour le raisonnement sémantique à un Expert d'Action basé sur l'appariement de flux (Flow Matching) pour une génération de trajectoire précise et continue. Pour soutenir l'apprentissage à grande échelle, nous avons développé le Moteur de Données ABot-N0, constituant un corpus de 16,9 millions de trajectoires expertes et 5,0 millions d'échantillons de raisonnement provenant de 7 802 scènes 3D haute fidélité (10,7 km²). ABot-N0 établit de nouveaux records state-of-the-art sur 7 benchmarks, surpassant significativement les modèles spécialisés. De plus, notre Système de Navigation Agentiel intègre un planificateur avec une mémoire topologique hiérarchique, permettant l'exécution de missions robustes et de long terme dans des environnements réels dynamiques.
English
Embodied navigation has long been fragmented by task-specific architectures. We introduce ABot-N0, a unified Vision-Language-Action (VLA) foundation model that achieves a ``Grand Unification'' across 5 core tasks: Point-Goal, Object-Goal, Instruction-Following, POI-Goal, and Person-Following. ABot-N0 utilizes a hierarchical ``Brain-Action'' architecture, pairing an LLM-based Cognitive Brain for semantic reasoning with a Flow Matching-based Action Expert for precise, continuous trajectory generation. To support large-scale learning, we developed the ABot-N0 Data Engine, curating 16.9M expert trajectories and 5.0M reasoning samples across 7,802 high-fidelity 3D scenes (10.7 km^2). ABot-N0 achieves new SOTA performance across 7 benchmarks, significantly outperforming specialized models. Furthermore, our Agentic Navigation System integrates a planner with hierarchical topological memory, enabling robust, long-horizon missions in dynamic real-world environments.
PDF20February 14, 2026