ABot-M0: Modello Fondamentale VLA per la Manipolazione Robotica con Apprendimento della Varietà delle Azioni
ABot-M0: VLA Foundation Model for Robotic Manipulation with Action Manifold Learning
February 11, 2026
Autori: Yandan Yang, Shuang Zeng, Tong Lin, Xinyuan Chang, Dekang Qi, Junjin Xiao, Haoyun Liu, Ronghan Chen, Yuzhi Chen, Dongjie Huo, Feng Xiong, Xing Wei, Zhiheng Ma, Mu Xu
cs.AI
Abstract
La creazione di agenti incarnati a scopo generale su hardware diversificati rimane una sfida centrale nella robotica, spesso inquadrata come paradigma "un-cervello, molte-forme". Il progresso è ostacolato da dati frammentati, rappresentazioni inconsistenti e obiettivi di addestramento disallineati. Presentiamo ABot-M0, un framework che costruisce una pipeline sistematica di curatela dei dati mentre ottimizza congiuntamente l'architettura del modello e le strategie di addestramento, consentendo la trasformazione end-to-end di dati grezzi eterogenei in rappresentazioni unificate ed efficienti. A partire da sei dataset pubblici, ripuliamo, standardizziamo e bilanciamo i campioni per costruire UniACT-dataset, un dataset su larga scala con oltre 6 milioni di traiettorie e 9.500 ore di dati, che copre diverse morfologie robotiche e scenari di compito. Il pre-addestramento unificato migliora il trasferimento di conoscenze e la generalizzazione tra piattaforme e compiti, supportando un'intelligenza incarnata a scopo generale. Per migliorare l'efficienza e la stabilità della predizione delle azioni, proponiamo l'Ipotesi della Varietà delle Azioni: le azioni robotiche efficaci risiedono non nell'intero spazio ad alta dimensionalità, ma su una varietà a bassa dimensionalità e liscia, governata da leggi fisiche e vincoli del compito. Sulla base di ciò, introduciamo l'Apprendimento della Varietà delle Azioni (AML), che utilizza un backbone DiT per predire direttamente sequenze di azioni pulite e continue. Ciò sposta l'apprendimento dalla rimozione del rumore alla proiezione su varietà fattibili, migliorando la velocità di decodifica e la stabilità della politica. ABot-M0 supporta una percezione modulare tramite un meccanismo a doppio flusso che integra la semantica dei VLM con prior geometrici e input multi-view da moduli 3D plug-and-play come VGGT e Qwen-Image-Edit, potenziando la comprensione spaziale senza modificare il backbone e mitigando le limitazioni standard dei VLM nel ragionamento 3D. Gli esperimenti mostrano che i componenti operano in modo indipendente con benefici additivi. Rilasceremo tutto il codice e le pipeline per garantire la riproducibilità e favorire la ricerca futura.
English
Building general-purpose embodied agents across diverse hardware remains a central challenge in robotics, often framed as the ''one-brain, many-forms'' paradigm. Progress is hindered by fragmented data, inconsistent representations, and misaligned training objectives. We present ABot-M0, a framework that builds a systematic data curation pipeline while jointly optimizing model architecture and training strategies, enabling end-to-end transformation of heterogeneous raw data into unified, efficient representations. From six public datasets, we clean, standardize, and balance samples to construct UniACT-dataset, a large-scale dataset with over 6 million trajectories and 9,500 hours of data, covering diverse robot morphologies and task scenarios. Unified pre-training improves knowledge transfer and generalization across platforms and tasks, supporting general-purpose embodied intelligence. To improve action prediction efficiency and stability, we propose the Action Manifold Hypothesis: effective robot actions lie not in the full high-dimensional space but on a low-dimensional, smooth manifold governed by physical laws and task constraints. Based on this, we introduce Action Manifold Learning (AML), which uses a DiT backbone to predict clean, continuous action sequences directly. This shifts learning from denoising to projection onto feasible manifolds, improving decoding speed and policy stability. ABot-M0 supports modular perception via a dual-stream mechanism that integrates VLM semantics with geometric priors and multi-view inputs from plug-and-play 3D modules such as VGGT and Qwen-Image-Edit, enhancing spatial understanding without modifying the backbone and mitigating standard VLM limitations in 3D reasoning. Experiments show components operate independently with additive benefits. We will release all code and pipelines for reproducibility and future research.