ABot-M0 : Modèle de fondation VLA pour la manipulation robotique avec apprentissage de variété d'actions
ABot-M0: VLA Foundation Model for Robotic Manipulation with Action Manifold Learning
February 11, 2026
papers.authors: Yandan Yang, Shuang Zeng, Tong Lin, Xinyuan Chang, Dekang Qi, Junjin Xiao, Haoyun Liu, Ronghan Chen, Yuzhi Chen, Dongjie Huo, Feng Xiong, Xing Wei, Zhiheng Ma, Mu Xu
cs.AI
papers.abstract
La création d'agents incarnés généralistes sur des matériels diversifiés reste un défi central en robotique, souvent conceptualisé sous le paradigme « un-cerveau, multiples-formes ». Les progrès sont entravés par la fragmentation des données, l'incohérence des représentations et le désalignement des objectifs d'entraînement. Nous présentons ABot-M0, un cadre qui établit un pipeline systématique de curation des données tout en optimisant conjointement l'architecture du modèle et les stratégies d'apprentissage, permettant la transformation de bout en bout de données brutes hétérogènes en représentations unifiées et efficaces. À partir de six jeux de données publics, nous nettoyons, standardisons et équilibrons les échantillons pour constituer UniACT-dataset, un jeu de données à grande échelle comprenant plus de 6 millions de trajectoires et 9 500 heures de données, couvrant diverses morphologies de robots et scénarios de tâches. Le pré-entraînement unifié amène le transfert de connaissances et la généralisation entre plates-formes et tâches, soutenant l'intelligence incarnée généraliste. Pour améliorer l'efficacité et la stabilité de la prédiction d'actions, nous proposons l'Hypothèse de la Variété des Actions : les actions robotiques efficaces résident non pas dans l'espace complet de haute dimension, mais sur une variété lisse de faible dimension régie par les lois physiques et les contraintes de la tâche. Sur cette base, nous introduisons l'Apprentissage de la Variété des Actions (AML), qui utilise une architecture DiT pour prédire directement des séquences d'actions propres et continues. Cela fait passer l'apprentissage du débruitage à la projection sur des variétés faisables, améliorant la vitesse de décodage et la stabilité de la politique. ABot-M0 prend en charge une perception modulaire via un mécanisme à double flux qui intègre la sémantique des VLM avec des connaissances géométriques a priori et des entrées multi-vues provenant de modules 3D plug-and-play tels que VGGT et Qwen-Image-Edit, améliorant la compréhension spatiale sans modifier l'architecture de base et atténuant les limitations standards des VLM en raisonnement 3D. Les expériences montrent que les composants fonctionnent indépendamment avec des bénéfices additifs. Nous publierons l'intégralité du code et des pipelines pour assurer la reproductibilité et les recherches futures.
English
Building general-purpose embodied agents across diverse hardware remains a central challenge in robotics, often framed as the ''one-brain, many-forms'' paradigm. Progress is hindered by fragmented data, inconsistent representations, and misaligned training objectives. We present ABot-M0, a framework that builds a systematic data curation pipeline while jointly optimizing model architecture and training strategies, enabling end-to-end transformation of heterogeneous raw data into unified, efficient representations. From six public datasets, we clean, standardize, and balance samples to construct UniACT-dataset, a large-scale dataset with over 6 million trajectories and 9,500 hours of data, covering diverse robot morphologies and task scenarios. Unified pre-training improves knowledge transfer and generalization across platforms and tasks, supporting general-purpose embodied intelligence. To improve action prediction efficiency and stability, we propose the Action Manifold Hypothesis: effective robot actions lie not in the full high-dimensional space but on a low-dimensional, smooth manifold governed by physical laws and task constraints. Based on this, we introduce Action Manifold Learning (AML), which uses a DiT backbone to predict clean, continuous action sequences directly. This shifts learning from denoising to projection onto feasible manifolds, improving decoding speed and policy stability. ABot-M0 supports modular perception via a dual-stream mechanism that integrates VLM semantics with geometric priors and multi-view inputs from plug-and-play 3D modules such as VGGT and Qwen-Image-Edit, enhancing spatial understanding without modifying the backbone and mitigating standard VLM limitations in 3D reasoning. Experiments show components operate independently with additive benefits. We will release all code and pipelines for reproducibility and future research.