ChatPaper.aiChatPaper

ABot-M0: VLA-Foundation-Modell für robotische Manipulation mit Aktionsmannigfaltigkeitslernen

ABot-M0: VLA Foundation Model for Robotic Manipulation with Action Manifold Learning

February 11, 2026
papers.authors: Yandan Yang, Shuang Zeng, Tong Lin, Xinyuan Chang, Dekang Qi, Junjin Xiao, Haoyun Liu, Ronghan Chen, Yuzhi Chen, Dongjie Huo, Feng Xiong, Xing Wei, Zhiheng Ma, Mu Xu
cs.AI

papers.abstract

Die Entwicklung allgemeiner, verkörperter Agenten für verschiedene Hardwareplattformen bleibt eine zentrale Herausforderung in der Robotik, die oft als „One-Brain, Many-Forms“-Paradigma beschrieben wird. Der Fortschritt wird durch fragmentierte Daten, inkonsistente Repräsentationen und nicht aufeinander abgestimmte Trainingsziele behindert. Wir stellen ABot-M0 vor, ein Framework, das eine systematische Datenkuratierungspipeline aufbaut und gleichzeitig Modellarchitektur und Trainingsstrategien gemeinsam optimiert, um eine end-to-end-Transformation heterogener Rohdaten in vereinheitlichte, effiziente Repräsentationen zu ermöglichen. Aus sechs öffentlichen Datensätzen bereinigen, standardisieren und balancieren wir Proben, um den UniACT-Datensatz zu konstruieren – einen großvolumigen Datensatz mit über 6 Millionen Trajektorien und 9.500 Stunden Daten, der verschiedene Robotermorphologien und Aufgaben-szenarien abdeckt. Vereinheitlichtes Pre-training verbessert die Wissensübertragung und Generalisierung über Plattformen und Aufgaben hinweg und unterstützt allgemeine verkörperte Intelligenz. Um die Effizienz und Stabilität der Aktionsvorhersage zu verbessern, stellen wir die Action Manifold-Hypothese auf: Effektive Roboteraktionen liegen nicht im vollständigen hochdimensionalen Raum, sondern auf einer niedrigdimensionalen, glatten Mannigfaltigkeit, die durch physikalische Gesetze und Aufgabenbeschränkungen bestimmt wird. Darauf aufbauend führen wir Action Manifold Learning (AML) ein, das ein DiT-Backbone nutzt, um direkt saubere, kontinuierliche Aktionssequenzen vorherzusagen. Dies verlagert das Lernen von Rauschunterdrückung auf die Projektion auf machbare Mannigfaltigkeiten und verbessert die Dekodiergeschwindigkeit und Politikstabilität. ABot-M0 unterstützt modulare Wahrnehmung über einen dual-stream-Mechanismus, der VLM-Semantik mit geometrischen Priors und Multi-View-Eingaben von Plug-and-Play-3D-Modulen wie VGGT und Qwen-Image-Edit integriert. Dies verbessert das räumliche Verständnis ohne Modifikation des Backbones und mildert Standardeinschränkungen von VLMs im 3D-Schließen. Experimente zeigen, dass Komponenten unabhängig voneinander mit additiven Vorteilen operieren. Wir werden allen Code und Pipelines zur Reproduzierbarkeit und für zukünftige Forschung veröffentlichen.
English
Building general-purpose embodied agents across diverse hardware remains a central challenge in robotics, often framed as the ''one-brain, many-forms'' paradigm. Progress is hindered by fragmented data, inconsistent representations, and misaligned training objectives. We present ABot-M0, a framework that builds a systematic data curation pipeline while jointly optimizing model architecture and training strategies, enabling end-to-end transformation of heterogeneous raw data into unified, efficient representations. From six public datasets, we clean, standardize, and balance samples to construct UniACT-dataset, a large-scale dataset with over 6 million trajectories and 9,500 hours of data, covering diverse robot morphologies and task scenarios. Unified pre-training improves knowledge transfer and generalization across platforms and tasks, supporting general-purpose embodied intelligence. To improve action prediction efficiency and stability, we propose the Action Manifold Hypothesis: effective robot actions lie not in the full high-dimensional space but on a low-dimensional, smooth manifold governed by physical laws and task constraints. Based on this, we introduce Action Manifold Learning (AML), which uses a DiT backbone to predict clean, continuous action sequences directly. This shifts learning from denoising to projection onto feasible manifolds, improving decoding speed and policy stability. ABot-M0 supports modular perception via a dual-stream mechanism that integrates VLM semantics with geometric priors and multi-view inputs from plug-and-play 3D modules such as VGGT and Qwen-Image-Edit, enhancing spatial understanding without modifying the backbone and mitigating standard VLM limitations in 3D reasoning. Experiments show components operate independently with additive benefits. We will release all code and pipelines for reproducibility and future research.
PDF103February 17, 2026