ABot-N0: Технический отчет о базовой модели VLA для универсальной навигации в физическом окружении
ABot-N0: Technical Report on the VLA Foundation Model for Versatile Embodied Navigation
February 12, 2026
Авторы: Zedong Chu, Shichao Xie, Xiaolong Wu, Yanfen Shen, Minghua Luo, Zhengbo Wang, Fei Liu, Xiaoxu Leng, Junjun Hu, Mingyang Yin, Jia Lu, Yingnan Guo, Kai Yang, Jiawei Han, Xu Chen, Yanqing Zhu, Yuxiang Zhao, Xin Liu, Yirong Yang, Ye He, Jiahang Wang, Yang Cai, Tianlin Zhang, Li Gao, Liu Liu, Mingchao Sun, Fan Jiang, Chiyu Wang, Zhicheng Liu, Hongyu Pan, Honglin Han, Zhining Gu, Kuan Yang, Jianfang Zhang, Di Jing, Zihao Guan, Wei Guo, Guoqing Liu, Di Yang, Xiangpo Yang, Menglin Yang, Hongguang Xing, Weiguo Li, Mu Xu
cs.AI
Аннотация
Проблема навигации с воплощенным агентом долгое время оставалась фрагментированной из-за архитектур, ориентированных на конкретные задачи. Мы представляем ABot-N0 — унифицированную фундаментальную модель «Vision-Language-Action» (VLA), которая достигает «Великого объединения» для пяти ключевых задач: навигации к точке (Point-Goal), навигации к объекту (Object-Goal), следованию инструкциям (Instruction-Following), навигации к точке интереса (POI-Goal) и следованию за человеком (Person-Following). ABot-N0 использует иерархическую архитектуру «Мозг-Действие», сочетая когнитивный модуль на основе LLM для семантических рассуждений и эксперта действий на основе сопоставления потоков (Flow Matching) для генерации точных непрерывных траекторий.
Для поддержки обучения в крупном масштабе мы разработали механизм данных ABot-N0, сформировав 16,9 млн экспертных траекторий и 5,0 млн примеров рассуждений в 7802 высокодетализированных 3D-сценах (общей площадью 10,7 км²). ABot-N0 устанавливает новые рекорды (SOTA) в семи тестовых наборах, значительно превосходя специализированные модели. Кроме того, наша агентская система навигации интегрирует планировщик с иерархической топологической памятью, что обеспечивает надежное выполнение длительных миссий в динамичных реальных условиях.
English
Embodied navigation has long been fragmented by task-specific architectures. We introduce ABot-N0, a unified Vision-Language-Action (VLA) foundation model that achieves a ``Grand Unification'' across 5 core tasks: Point-Goal, Object-Goal, Instruction-Following, POI-Goal, and Person-Following. ABot-N0 utilizes a hierarchical ``Brain-Action'' architecture, pairing an LLM-based Cognitive Brain for semantic reasoning with a Flow Matching-based Action Expert for precise, continuous trajectory generation.
To support large-scale learning, we developed the ABot-N0 Data Engine, curating 16.9M expert trajectories and 5.0M reasoning samples across 7,802 high-fidelity 3D scenes (10.7 km^2). ABot-N0 achieves new SOTA performance across 7 benchmarks, significantly outperforming specialized models. Furthermore, our Agentic Navigation System integrates a planner with hierarchical topological memory, enabling robust, long-horizon missions in dynamic real-world environments.