ABot-M0: Modelo Fundacional VLA para la Manipulación Robótica con Aprendizaje de Variedades de Acción
ABot-M0: VLA Foundation Model for Robotic Manipulation with Action Manifold Learning
February 11, 2026
Autores: Yandan Yang, Shuang Zeng, Tong Lin, Xinyuan Chang, Dekang Qi, Junjin Xiao, Haoyun Liu, Ronghan Chen, Yuzhi Chen, Dongjie Huo, Feng Xiong, Xing Wei, Zhiheng Ma, Mu Xu
cs.AI
Resumen
La construcción de agentes corporizados de propósito general para hardware diverso sigue siendo un desafío central en robótica, a menudo enmarcado como el paradigma de ''un-cerebro, muchas-formas''. El progreso se ve obstaculizado por datos fragmentados, representaciones inconsistentes y objetivos de entrenamiento desalineados. Presentamos ABot-M0, un marco que construye un pipeline sistemático de curación de datos mientras optimiza conjuntamente la arquitectura del modelo y las estrategias de entrenamiento, permitiendo la transformación end-to-end de datos crudos heterogéneos en representaciones unificadas y eficientes. A partir de seis conjuntos de datos públicos, limpiamos, estandarizamos y balanceamos muestras para construir UniACT-dataset, un conjunto de datos a gran escala con más de 6 millones de trayectorias y 9.500 horas de datos, que cubre diversas morfologías de robots y escenarios de tareas. El pre-entrenamiento unificado mejora la transferencia de conocimiento y la generalización entre plataformas y tareas, apoyando la inteligencia corporizada de propósito general. Para mejorar la eficiencia y estabilidad de la predicción de acciones, proponemos la Hipótesis del Variedad de Acciones: las acciones efectivas del robot no residen en el espacio completo de alta dimensión, sino en una variedad (manifold) de baja dimensión y suave, gobernada por leyes físicas y restricciones de la tarea. Basándonos en esto, introducimos el Aprendizaje de la Variedad de Acciones (AML), que utiliza un backbone DiT para predecir secuencias de acciones limpias y continuas directamente. Esto cambia el aprendizaje de la eliminación de ruido a la proyección sobre variedades factibles, mejorando la velocidad de decodificación y la estabilidad de la política. ABot-M0 soporta percepción modular mediante un mecanismo de doble flujo que integra semántica de VLM con priores geométricos y entradas multi-vista de módulos 3D plug-and-play como VGGT y Qwen-Image-Edit, mejorando la comprensión espacial sin modificar el backbone y mitigando las limitaciones estándar de los VLM en el razonamiento 3D. Los experimentos muestran que los componentes operan de forma independiente con beneficios aditivos. Liberaremos todo el código y pipelines para garantizar la reproducibilidad y futuras investigaciones.
English
Building general-purpose embodied agents across diverse hardware remains a central challenge in robotics, often framed as the ''one-brain, many-forms'' paradigm. Progress is hindered by fragmented data, inconsistent representations, and misaligned training objectives. We present ABot-M0, a framework that builds a systematic data curation pipeline while jointly optimizing model architecture and training strategies, enabling end-to-end transformation of heterogeneous raw data into unified, efficient representations. From six public datasets, we clean, standardize, and balance samples to construct UniACT-dataset, a large-scale dataset with over 6 million trajectories and 9,500 hours of data, covering diverse robot morphologies and task scenarios. Unified pre-training improves knowledge transfer and generalization across platforms and tasks, supporting general-purpose embodied intelligence. To improve action prediction efficiency and stability, we propose the Action Manifold Hypothesis: effective robot actions lie not in the full high-dimensional space but on a low-dimensional, smooth manifold governed by physical laws and task constraints. Based on this, we introduce Action Manifold Learning (AML), which uses a DiT backbone to predict clean, continuous action sequences directly. This shifts learning from denoising to projection onto feasible manifolds, improving decoding speed and policy stability. ABot-M0 supports modular perception via a dual-stream mechanism that integrates VLM semantics with geometric priors and multi-view inputs from plug-and-play 3D modules such as VGGT and Qwen-Image-Edit, enhancing spatial understanding without modifying the backbone and mitigating standard VLM limitations in 3D reasoning. Experiments show components operate independently with additive benefits. We will release all code and pipelines for reproducibility and future research.