ChatPaper.aiChatPaper

ABot-M0: 동작 다양체 학습을 통한 로봇 매니휴레이션을 위한 VLA 파운데이션 모델

ABot-M0: VLA Foundation Model for Robotic Manipulation with Action Manifold Learning

February 11, 2026
저자: Yandan Yang, Shuang Zeng, Tong Lin, Xinyuan Chang, Dekang Qi, Junjin Xiao, Haoyun Liu, Ronghan Chen, Yuzhi Chen, Dongjie Huo, Feng Xiong, Xing Wei, Zhiheng Ma, Mu Xu
cs.AI

초록

다양한 하드웨어에서 범용 구현 에이전트를 구축하는 것은 로봇공학의 핵심 과제로, 흔히 '하나의 두뇌, 다양한 형태' 패러다임으로 설명됩니다. 이 분야의 발전은 단편화된 데이터, 일관성 없는 표현 방식, 불일치하는 훈련 목표에 의해 저해되고 있습니다. 본 논문에서는 체계적인 데이터 큐레이션 파이프라인을 구축하는 동시에 모델 아키텍처와 훈련 전략을 공동 최적화하여 이기종 원시 데이터를 통합적이고 효율적인 표현으로 종단간 변환하는 ABot-M0 프레임워크를 제시합니다. 6개의 공개 데이터셋에서 샘플을 정제, 표준화, 균형 조정하여 다양한 로봇 형태와 작업 시나리오를 아우르는 600만 개 이상의 궤적과 9,500시간 이상의 데이터를 포함하는 대규모 데이터셋인 UniACT-dataset을 구축했습니다. 통합 사전 훈련은 플랫폼과 작업 간 지식 전이 및 일반화 능력을 향상시켜 범용 구현 지능을 지원합니다. 행동 예측의 효율성과 안정성을 높이기 위해 우리는 '행동 다양체 가설'을 제안합니다. 효과적인 로봇 행동은 전체 고차원 공간에 존재하는 것이 아니라 물리 법칙과 작업 제약에 의해 지배되는 저차원의 매끄러운 다양체 위에 존재한다는 것입니다. 이를 바탕으로 DiT 백본을 사용하여 깨끗하고 연속적인 행동 시퀀스를 직접 예측하는 행동 다양체 학습(AML)을 도입했습니다. 이는 학습을 노이즈 제거에서 실행 가능한 다양체로의 투영으로 전환하여 디코딩 속도와 정책 안정성을 향상시킵니다. ABot-M0는 VLM 의미 체계와 기하학적 사전 지식, VGGT 및 Qwen-Image-Edit와 같은 플러그 앤 플레이 3D 모듈의 다중 뷰 입력을 통합하는 이중 스트림 메커니즘을 통해 모듈식 인식을 지원합니다. 이는 백본 수정 없이 공간 이해력을 향상시키고 3D 추론에서 표준 VLM의 한계를 완화합니다. 실험 결과 각 구성 요소가 독립적으로 작동하며 상호 보완적 이점을 제공함을 확인했습니다. 재현성과 향후 연구를 위해 모든 코드와 파이프라인을 공개할 예정입니다.
English
Building general-purpose embodied agents across diverse hardware remains a central challenge in robotics, often framed as the ''one-brain, many-forms'' paradigm. Progress is hindered by fragmented data, inconsistent representations, and misaligned training objectives. We present ABot-M0, a framework that builds a systematic data curation pipeline while jointly optimizing model architecture and training strategies, enabling end-to-end transformation of heterogeneous raw data into unified, efficient representations. From six public datasets, we clean, standardize, and balance samples to construct UniACT-dataset, a large-scale dataset with over 6 million trajectories and 9,500 hours of data, covering diverse robot morphologies and task scenarios. Unified pre-training improves knowledge transfer and generalization across platforms and tasks, supporting general-purpose embodied intelligence. To improve action prediction efficiency and stability, we propose the Action Manifold Hypothesis: effective robot actions lie not in the full high-dimensional space but on a low-dimensional, smooth manifold governed by physical laws and task constraints. Based on this, we introduce Action Manifold Learning (AML), which uses a DiT backbone to predict clean, continuous action sequences directly. This shifts learning from denoising to projection onto feasible manifolds, improving decoding speed and policy stability. ABot-M0 supports modular perception via a dual-stream mechanism that integrates VLM semantics with geometric priors and multi-view inputs from plug-and-play 3D modules such as VGGT and Qwen-Image-Edit, enhancing spatial understanding without modifying the backbone and mitigating standard VLM limitations in 3D reasoning. Experiments show components operate independently with additive benefits. We will release all code and pipelines for reproducibility and future research.
PDF103February 17, 2026