ChatPaper.aiChatPaper

ABot-M0: 行動多様体学習を用いたロボット把持のためのVLA基盤モデル

ABot-M0: VLA Foundation Model for Robotic Manipulation with Action Manifold Learning

February 11, 2026
著者: Yandan Yang, Shuang Zeng, Tong Lin, Xinyuan Chang, Dekang Qi, Junjin Xiao, Haoyun Liu, Ronghan Chen, Yuzhi Chen, Dongjie Huo, Feng Xiong, Xing Wei, Zhiheng Ma, Mu Xu
cs.AI

要旨

多様なハードウェリにおける汎用身体性エージェントの構築は、ロボティクスにおける中心的な課題であり、しばしば「単一頭脳・多様な形態」パラダイムとして捉えられてきた。この進歩は、断片化したデータ、不統一な表現、不一致な訓練目標によって妨げられている。本研究では、ABot-M0フレームワークを提案する。これは体系的なデータキュレーションパイプラインを構築するとともに、モデルアーキテクチャと訓練戦略を共同最適化し、異種混在の生データを統一的で効率的な表現へとエンドツーエンドで変換することを可能にする。6つの公開データセットから、サンプルのクリーニング、標準化、バランス調整を行い、600万以上の軌跡と9,500時間以上のデータを有し、多様なロボット形態とタスクシナリオを網羅する大規模データセットUniACT-datasetを構築した。統一的な事前学習は、プラットフォームやタスクを超えた知識転移と汎化性能を向上させ、汎用身体性知能を支える。行動予測の効率性と安定性を向上させるため、我々は「行動多様体仮説」を提案する:有効なロボット行動は、高次元空間全体に存在するのではなく、物理法則とタスク制約によって支配される低次元で滑らかな多様体上に存在する。これに基づき、Action Manifold Learning (AML) を導入する。AMLはDiTバックボーンを用いて、クリーンで連続的な行動系列を直接予測する。これにより、学習はノイズ除去から実行可能な多様体への射影へと転換され、デコード速度と方策の安定性が向上する。ABot-M0は、VLMの意味情報と幾何学的事前情報、さらにVGGTやQwen-Image-Editなどのプラグアンドプレイ型3Dモジュールからのマルチビュー入力を統合するデュアルストリーム機構により、モジュラー知覚をサポートする。これにより、バックボーンを変更することなく空間理解が強化され、3D推論における標準VLMの限界が緩和される。実験により、各コンポーネントが独立して動作し、相乗効果をもたらすことが示された。再現性と将来の研究のため、全てのコードとパイプラインを公開する予定である。
English
Building general-purpose embodied agents across diverse hardware remains a central challenge in robotics, often framed as the ''one-brain, many-forms'' paradigm. Progress is hindered by fragmented data, inconsistent representations, and misaligned training objectives. We present ABot-M0, a framework that builds a systematic data curation pipeline while jointly optimizing model architecture and training strategies, enabling end-to-end transformation of heterogeneous raw data into unified, efficient representations. From six public datasets, we clean, standardize, and balance samples to construct UniACT-dataset, a large-scale dataset with over 6 million trajectories and 9,500 hours of data, covering diverse robot morphologies and task scenarios. Unified pre-training improves knowledge transfer and generalization across platforms and tasks, supporting general-purpose embodied intelligence. To improve action prediction efficiency and stability, we propose the Action Manifold Hypothesis: effective robot actions lie not in the full high-dimensional space but on a low-dimensional, smooth manifold governed by physical laws and task constraints. Based on this, we introduce Action Manifold Learning (AML), which uses a DiT backbone to predict clean, continuous action sequences directly. This shifts learning from denoising to projection onto feasible manifolds, improving decoding speed and policy stability. ABot-M0 supports modular perception via a dual-stream mechanism that integrates VLM semantics with geometric priors and multi-view inputs from plug-and-play 3D modules such as VGGT and Qwen-Image-Edit, enhancing spatial understanding without modifying the backbone and mitigating standard VLM limitations in 3D reasoning. Experiments show components operate independently with additive benefits. We will release all code and pipelines for reproducibility and future research.
PDF103February 17, 2026