ABot-M0: Базовая модель VLA для роботизированного манипулирования с обучением на многообразии действий
ABot-M0: VLA Foundation Model for Robotic Manipulation with Action Manifold Learning
February 11, 2026
Авторы: Yandan Yang, Shuang Zeng, Tong Lin, Xinyuan Chang, Dekang Qi, Junjin Xiao, Haoyun Liu, Ronghan Chen, Yuzhi Chen, Dongjie Huo, Feng Xiong, Xing Wei, Zhiheng Ma, Mu Xu
cs.AI
Аннотация
Создание универсальных воплощенных агентов для разнородного аппаратного обеспечения остается ключевой проблемой в робототехнике, часто формулируемой как парадигма «один интеллект — множество форм». Прогрессу препятствуют фрагментированные данные, несогласованные представления и невыровненные цели обучения. Мы представляем ABot-M0 — фреймворк, который создает системный конвейер курирования данных, одновременно совместно оптимизируя архитектуру модели и стратегии обучения, что позволяет осуществлять сквозное преобразование гетерогенных сырых данных в унифицированные, эффективные представления. Из шести публичных наборов данных мы очищаем, стандартизируем и балансируем выборки для построения UniACT-dataset, крупномасштабного набора данных, содержащего более 6 миллионов траекторий и 9500 часов данных, охватывающих разнообразные морфологии роботов и сценарии задач. Унифицированное предварительное обучение улучшает передачу знаний и обобщение между платформами и задачами, поддерживая развитие универсального воплощенного интеллекта. Для повышения эффективности и стабильности прогнозирования действий мы предлагаем Гипотезу Многообразия Действий: эффективные действия робота лежат не в полном высокоразмерном пространстве, а на низкоразмерном, гладком многообразии, управляемом законами физики и ограничениями задач. На основе этого мы вводим Обучение на Многообразии Действий (Action Manifold Learning, AML), которое использует базовую архитектуру DiT для прямого прогнозирования чистых, непрерывных последовательностей действий. Это смещает обучение с удаления шума на проекцию на допустимые многообразия, улучшая скорость декодирования и стабильность политики. ABot-M0 поддерживает модульное восприятие через двухпотоковый механизм, интегрирующий семантику VLM с геометрическими априорными знаниями и многовидовыми входами от plug-and-play 3D модулей, таких как VGGT и Qwen-Image-Edit, усиливая пространственное понимание без модификации базовой архитектуры и смягчая характерные для стандартных VLM ограничения в 3D-рассуждениях. Эксперименты показывают, что компоненты работают независимо с аддитивным эффектом. Мы опубликуем весь код и конвейеры для обеспечения воспроизводимости и будущих исследований.
English
Building general-purpose embodied agents across diverse hardware remains a central challenge in robotics, often framed as the ''one-brain, many-forms'' paradigm. Progress is hindered by fragmented data, inconsistent representations, and misaligned training objectives. We present ABot-M0, a framework that builds a systematic data curation pipeline while jointly optimizing model architecture and training strategies, enabling end-to-end transformation of heterogeneous raw data into unified, efficient representations. From six public datasets, we clean, standardize, and balance samples to construct UniACT-dataset, a large-scale dataset with over 6 million trajectories and 9,500 hours of data, covering diverse robot morphologies and task scenarios. Unified pre-training improves knowledge transfer and generalization across platforms and tasks, supporting general-purpose embodied intelligence. To improve action prediction efficiency and stability, we propose the Action Manifold Hypothesis: effective robot actions lie not in the full high-dimensional space but on a low-dimensional, smooth manifold governed by physical laws and task constraints. Based on this, we introduce Action Manifold Learning (AML), which uses a DiT backbone to predict clean, continuous action sequences directly. This shifts learning from denoising to projection onto feasible manifolds, improving decoding speed and policy stability. ABot-M0 supports modular perception via a dual-stream mechanism that integrates VLM semantics with geometric priors and multi-view inputs from plug-and-play 3D modules such as VGGT and Qwen-Image-Edit, enhancing spatial understanding without modifying the backbone and mitigating standard VLM limitations in 3D reasoning. Experiments show components operate independently with additive benefits. We will release all code and pipelines for reproducibility and future research.