ChatPaper.aiChatPaper

ABot-N0: Relazione Tecnica sul Modello Base VLA per la Navigazione Embodied Versatile

ABot-N0: Technical Report on the VLA Foundation Model for Versatile Embodied Navigation

February 12, 2026
Autori: Zedong Chu, Shichao Xie, Xiaolong Wu, Yanfen Shen, Minghua Luo, Zhengbo Wang, Fei Liu, Xiaoxu Leng, Junjun Hu, Mingyang Yin, Jia Lu, Yingnan Guo, Kai Yang, Jiawei Han, Xu Chen, Yanqing Zhu, Yuxiang Zhao, Xin Liu, Yirong Yang, Ye He, Jiahang Wang, Yang Cai, Tianlin Zhang, Li Gao, Liu Liu, Mingchao Sun, Fan Jiang, Chiyu Wang, Zhicheng Liu, Hongyu Pan, Honglin Han, Zhining Gu, Kuan Yang, Jianfang Zhang, Di Jing, Zihao Guan, Wei Guo, Guoqing Liu, Di Yang, Xiangpo Yang, Menglin Yang, Hongguang Xing, Weiguo Li, Mu Xu
cs.AI

Abstract

La navigazione embodied è stata a lungo frammentata da architetture specifiche per singoli compiti. Presentiamo ABot-N0, un modello foundation unificato Visione-Linguaggio-Azione (VLA) che realizza una "Grande Unificazione" su 5 compiti fondamentali: Point-Goal, Object-Goal, Instruction-Following, POI-Goal e Person-Following. ABot-N0 utilizza un'architettura gerarchica "Cervello-Azione", accoppiando un Cervello Cognitivo basato su LLM per il ragionamento semantico con un Esperto d'Azione basato su Flow Matching per la generazione di traiettorie precise e continue. Per supportare l'apprendimento su larga scala, abbiamo sviluppato il Motore dei Dati ABot-N0, curando 16,9 milioni di traiettorie esperte e 5,0 milioni di campioni di ragionamento in 7.802 scene 3D ad alta fedeltà (10,7 km²). ABot-N0 raggiunge nuove prestazioni state-of-the-art su 7 benchmark, superando significativamente i modelli specializzati. Inoltre, il nostro Sistema di Navigazione Agente integra un pianificatore con memoria topologica gerarchica, abilitando missioni robuste e a lungo termine in ambienti real-world dinamici.
English
Embodied navigation has long been fragmented by task-specific architectures. We introduce ABot-N0, a unified Vision-Language-Action (VLA) foundation model that achieves a ``Grand Unification'' across 5 core tasks: Point-Goal, Object-Goal, Instruction-Following, POI-Goal, and Person-Following. ABot-N0 utilizes a hierarchical ``Brain-Action'' architecture, pairing an LLM-based Cognitive Brain for semantic reasoning with a Flow Matching-based Action Expert for precise, continuous trajectory generation. To support large-scale learning, we developed the ABot-N0 Data Engine, curating 16.9M expert trajectories and 5.0M reasoning samples across 7,802 high-fidelity 3D scenes (10.7 km^2). ABot-N0 achieves new SOTA performance across 7 benchmarks, significantly outperforming specialized models. Furthermore, our Agentic Navigation System integrates a planner with hierarchical topological memory, enabling robust, long-horizon missions in dynamic real-world environments.
PDF21March 17, 2026