ChatPaper.aiChatPaper

ABot-N0: 多様なエンボディードナビゲーションのためのVLA基盤モデルに関する技術報告

ABot-N0: Technical Report on the VLA Foundation Model for Versatile Embodied Navigation

February 12, 2026
著者: Zedong Chu, Shichao Xie, Xiaolong Wu, Yanfen Shen, Minghua Luo, Zhengbo Wang, Fei Liu, Xiaoxu Leng, Junjun Hu, Mingyang Yin, Jia Lu, Yingnan Guo, Kai Yang, Jiawei Han, Xu Chen, Yanqing Zhu, Yuxiang Zhao, Xin Liu, Yirong Yang, Ye He, Jiahang Wang, Yang Cai, Tianlin Zhang, Li Gao, Liu Liu, Mingchao Sun, Fan Jiang, Chiyu Wang, Zhicheng Liu, Hongyu Pan, Honglin Han, Zhining Gu, Kuan Yang, Jianfang Zhang, Di Jing, Zihao Guan, Wei Guo, Guoqing Liu, Di Yang, Xiangpo Yang, Menglin Yang, Hongguang Xing, Weiguo Li, Mu Xu
cs.AI

要旨

従来、エンボディードナビゲーションはタスク特化型アーキテクチャによって断片化されてきた。本論文では、5つの核心的タスク(Point-Goal、Object-Goal、Instruction-Following、POI-Goal、Person-Following)を横断する「大統一」を達成する統合型Vision-Language-Action(VLA)基盤モデルABot-N0を提案する。ABot-N0は階層型「Brain-Action」アーキテクチャを採用し、意味推論を行うLLMベースのCognitive Brainと、精密かつ連続的な軌道生成を実現するFlow MatchingベースのAction Expertを組み合わせている。 大規模学習を可能にするため、7,802の高精細3Dシーン(10.7 km²)から16.9Mの専門家軌道と5.0Mの推論サンプルを構築したABot-N0データエンジンを開発した。ABot-N0は7つのベンチマークで新たなSOTA性能を達成し、特化モデルを大幅に上回る。さらに、計画階層とトポロジカルメモリを統合した自律ナビゲーションシステムにより、動的な実環境における頑健な長期ミッションを実現する。
English
Embodied navigation has long been fragmented by task-specific architectures. We introduce ABot-N0, a unified Vision-Language-Action (VLA) foundation model that achieves a ``Grand Unification'' across 5 core tasks: Point-Goal, Object-Goal, Instruction-Following, POI-Goal, and Person-Following. ABot-N0 utilizes a hierarchical ``Brain-Action'' architecture, pairing an LLM-based Cognitive Brain for semantic reasoning with a Flow Matching-based Action Expert for precise, continuous trajectory generation. To support large-scale learning, we developed the ABot-N0 Data Engine, curating 16.9M expert trajectories and 5.0M reasoning samples across 7,802 high-fidelity 3D scenes (10.7 km^2). ABot-N0 achieves new SOTA performance across 7 benchmarks, significantly outperforming specialized models. Furthermore, our Agentic Navigation System integrates a planner with hierarchical topological memory, enabling robust, long-horizon missions in dynamic real-world environments.
PDF20February 14, 2026