ChatPaper.aiChatPaper

ABot-M0: Modelo de Base VLA para Manipulação Robótica com Aprendizado de Variedade de Ações

ABot-M0: VLA Foundation Model for Robotic Manipulation with Action Manifold Learning

February 11, 2026
Autores: Yandan Yang, Shuang Zeng, Tong Lin, Xinyuan Chang, Dekang Qi, Junjin Xiao, Haoyun Liu, Ronghan Chen, Yuzhi Chen, Dongjie Huo, Feng Xiong, Xing Wei, Zhiheng Ma, Mu Xu
cs.AI

Resumo

A construção de agentes corporificados de propósito geral em hardwares diversos permanece um desafio central na robótica, frequentemente enquadrado como o paradigma "um-cérebro, múltiplas-formas". O progresso é dificultado por dados fragmentados, representações inconsistentes e objetivos de treinamento desalinhados. Apresentamos o ABot-M0, uma estrutura que constrói um *pipeline* sistemático de curadoria de dados enquanto otimiza conjuntamente a arquitetura do modelo e as estratégias de treinamento, permitindo a transformação de ponta a ponta de dados brutos heterogêneos em representações unificadas e eficientes. A partir de seis conjuntos de dados públicos, limpamos, padronizamos e balanceamos amostras para construir o UniACT-dataset, um conjunto de dados em larga escala com mais de 6 milhões de trajetórias e 9.500 horas de dados, abrangendo diversas morfologias de robôs e cenários de tarefas. O pré-treinamento unificado melhora a transferência de conhecimento e a generalização entre plataformas e tarefas, apoiando a inteligência corporificada de propósito geral. Para melhorar a eficiência e estabilidade da previsão de ações, propomos a Hipótese da Variedade de Ações: as ações efetivas do robô residem não no espaço completo de alta dimensão, mas em uma variedade de baixa dimensão, suave, regida por leis físicas e restrições da tarefa. Com base nisso, introduzimos o Aprendizado da Variedade de Ações (AML), que usa uma espinha dorsal DiT para prever sequências de ações limpas e contínuas diretamente. Isso desloca o aprendizado da remoção de ruído para a projeção em variedades viáveis, melhorando a velocidade de decodificação e a estabilidade da política. O ABot-M0 suporta percepção modular via um mecanismo de fluxo duplo que integra semântica de VLM com *priors* geométricos e entradas multi-visão de módulos 3D *plug-and-play*, como VGGT e Qwen-Image-Edit, aprimorando a compreensão espacial sem modificar a espinha dorsal e mitigando as limitações padrão dos VLMs no raciocínio 3D. Experimentos mostram que os componentes operam de forma independente com benefícios aditivos. Liberaremos todo o código e *pipelines* para reprodutibilidade e pesquisas futuras.
English
Building general-purpose embodied agents across diverse hardware remains a central challenge in robotics, often framed as the ''one-brain, many-forms'' paradigm. Progress is hindered by fragmented data, inconsistent representations, and misaligned training objectives. We present ABot-M0, a framework that builds a systematic data curation pipeline while jointly optimizing model architecture and training strategies, enabling end-to-end transformation of heterogeneous raw data into unified, efficient representations. From six public datasets, we clean, standardize, and balance samples to construct UniACT-dataset, a large-scale dataset with over 6 million trajectories and 9,500 hours of data, covering diverse robot morphologies and task scenarios. Unified pre-training improves knowledge transfer and generalization across platforms and tasks, supporting general-purpose embodied intelligence. To improve action prediction efficiency and stability, we propose the Action Manifold Hypothesis: effective robot actions lie not in the full high-dimensional space but on a low-dimensional, smooth manifold governed by physical laws and task constraints. Based on this, we introduce Action Manifold Learning (AML), which uses a DiT backbone to predict clean, continuous action sequences directly. This shifts learning from denoising to projection onto feasible manifolds, improving decoding speed and policy stability. ABot-M0 supports modular perception via a dual-stream mechanism that integrates VLM semantics with geometric priors and multi-view inputs from plug-and-play 3D modules such as VGGT and Qwen-Image-Edit, enhancing spatial understanding without modifying the backbone and mitigating standard VLM limitations in 3D reasoning. Experiments show components operate independently with additive benefits. We will release all code and pipelines for reproducibility and future research.
PDF143March 28, 2026