ABot-M0: VLA-fundamentmodel voor robotmanipulatie met actiemanifold-leren
ABot-M0: VLA Foundation Model for Robotic Manipulation with Action Manifold Learning
February 11, 2026
Auteurs: Yandan Yang, Shuang Zeng, Tong Lin, Xinyuan Chang, Dekang Qi, Junjin Xiao, Haoyun Liu, Ronghan Chen, Yuzhi Chen, Dongjie Huo, Feng Xiong, Xing Wei, Zhiheng Ma, Mu Xu
cs.AI
Samenvatting
Het ontwikkelen van algemene, belichaamde agenten voor uiteenlopende hardwareplatforms blijft een centrale uitdaging in de robotica, vaak omschreven als het "één-brein, vele-vormen"-paradigma. Vooruitgang wordt belemmerd door gefragmenteerde data, inconsistente representaties en niet-uitgelijnde trainingsdoelen. Wij presenteren ABot-M0, een raamwerk dat een systematische pijplijn voor datacuratie opzet, terwijl het modelarchitectuur en trainingsstrategieën gezamenlijk optimaliseert, waardoor een end-to-end transformatie van heterogene ruwe data naar uniforme, efficiënte representaties mogelijk wordt. Vanuit zes publieke datasets zuiveren, standaardiseren en balanceren we monsters om UniACT-dataset te construeren: een grootschalige dataset met meer dan 6 miljoen trajecten en 9.500 uur aan data, die diverse robotmorfologieën en taakscenario's bestrijkt. Gezamenlijke voorafgaande training verbetert kennistransfer en generalisatie over platformen en taken heen, ter ondersteuning van algemene belichaamde intelligentie. Om de efficiëntie en stabiliteit van actievoorspelling te verbeteren, stellen wij de Actie-variëteitshypothese voor: effectieve robotacties bevinden zich niet in de volledige hoogdimensionale ruimte, maar op een laagdimensionale, gladde variëteit die wordt beheerst door natuurkundige wetten en taakbeperkingen. Gebaseerd hierop introduceren we Actie-variëteitsleren (AML), dat een DiT-backbone gebruikt om direct schone, continue actievolgordes te voorspellen. Dit verschuift het leren van ruisonderdrukking naar projectie op haalbare variëteiten, wat de decodersnelheid en beleidsstabiliteit verbetert. ABot-M0 ondersteunt modulaire perceptie via een dual-stream mechanisme dat VLM-semantiek integreert met geometrische priors en multi-view invoer van plug-and-play 3D-modules zoals VGGT en Qwen-Image-Edit, waardoor het ruimtelijk begrip wordt verbeterd zonder de backbone aan te passen en de standaardbeperkingen van VLM's in 3D-redeneren worden verminderd. Experimenten tonen aan dat componenten onafhankelijk opereren met additieve voordelen. Wij zullen alle code en pijplijnen vrijgeven voor reproduceerbaarheid en toekomstig onderzoek.
English
Building general-purpose embodied agents across diverse hardware remains a central challenge in robotics, often framed as the ''one-brain, many-forms'' paradigm. Progress is hindered by fragmented data, inconsistent representations, and misaligned training objectives. We present ABot-M0, a framework that builds a systematic data curation pipeline while jointly optimizing model architecture and training strategies, enabling end-to-end transformation of heterogeneous raw data into unified, efficient representations. From six public datasets, we clean, standardize, and balance samples to construct UniACT-dataset, a large-scale dataset with over 6 million trajectories and 9,500 hours of data, covering diverse robot morphologies and task scenarios. Unified pre-training improves knowledge transfer and generalization across platforms and tasks, supporting general-purpose embodied intelligence. To improve action prediction efficiency and stability, we propose the Action Manifold Hypothesis: effective robot actions lie not in the full high-dimensional space but on a low-dimensional, smooth manifold governed by physical laws and task constraints. Based on this, we introduce Action Manifold Learning (AML), which uses a DiT backbone to predict clean, continuous action sequences directly. This shifts learning from denoising to projection onto feasible manifolds, improving decoding speed and policy stability. ABot-M0 supports modular perception via a dual-stream mechanism that integrates VLM semantics with geometric priors and multi-view inputs from plug-and-play 3D modules such as VGGT and Qwen-Image-Edit, enhancing spatial understanding without modifying the backbone and mitigating standard VLM limitations in 3D reasoning. Experiments show components operate independently with additive benefits. We will release all code and pipelines for reproducibility and future research.