MolmoAct2: 현실 적용을 위한 행동 추론 모델
MolmoAct2: Action Reasoning Models for Real-world Deployment
May 4, 2026
저자: Haoquan Fang, Jiafei Duan, Donovan Clay, Sam Wang, Shuo Liu, Weikai Huang, Xiang Fan, Wei-Chuan Tsai, Shirui Chen, Yi Ru Wang, Shanli Xing, Jaemin Cho, Jae Sung Park, Ainaz Eftekhar, Peter Sushko, Karen Farley, Angad Wadhwa, Cole Harrison, Winson Han, Ying-Chun Lee, Eli VanderBilt, Rose Hendrix, Suveen Ellawela, Lucas Ngoo, Joyce Chai, Zhongzheng Ren, Ali Farhadi, Dieter Fox, Ranjay Krishna
cs.AI
초록
비전-언어-액션(VLA) 모델은 로봇을 위한 단일 범용 제어기를 제공하는 것을 목표하지만, 현실 세계 배포에 중요한 기준에서 현재 시스템은 부족한 실정입니다. 최첨단 모델은 폐쇄적이고, 오픈 웨이트 대안은 고가의 하드웨어에 종속되며, 추론 강화 정책은 실시간 반영을 위해 감당하기 어려운 지연 시간을 치르고, 미세 조정된 성공률은 신뢰할 수 있는 사용을 위한 문턱에 미치지 못합니다. 우리는 실용적인 배포를 위해 구축된 완전 오픈 액션 추론 모델인 MolmoAct2를 소개하며, 전작보다 다섯 가지 측면에서 발전을 이루었습니다. 공간 및 구현체 추론에 특화된 VLM 백본인 MolmoER를 도입했으며, 특화 후 숙련(Specialize-then-Rehearse) 방식으로 330만 개 샘플 코퍼스를 통해 학습되었습니다. 저비용부터 중간 비용 플랫폼에 이르는 세 가지 새로운 데이터셋을 공개합니다. 여기에는 기존 오픈 양손 데이터셋 중 가장 규모가 큰 720시간의 원격 조작 양손 궤적 데이터인 MolmoAct2-BimanualYAM과 품질이 필터링된 Franka(DROID) 및 SO100/101 서브셋이 포함됩니다. 5가지 구현체에서 수백만 개의 궤적을 통해 학습된 오픈 웨이트, 오픈 데이터 액션 토크나이저인 OpenFAST를 제공합니다. 레이어별 KV 캐시 조건화를 통해 이산 토큰 VLM에 흐름 매칭 연속 액션 전문가 모듈을 접목하는 방식으로 아키텍처를 재설계했습니다. 마지막으로, 시간 단계 사이에 변경된 장면 영역에 대해서만 깊이 토큰을 재예측하는 적응 깊이 추론 변형인 MolmoThink를 제안합니다. 이는 기하학적 근거를 유지하면서 기존 지연 시간의 일부만으로 동작합니다. 오픈 VLA 중 역대 가장 포괄적인 실증 연구에서 MolmoAct2는 Pi-05를 포함한 강력한 베이스라인을 능가했으며, MolmoER는 13개의 구현체 추론 벤치마크에서 GPT-5와 Gemini Robotics ER-1.5를 앞섰습니다. 모델 가중치, 학습 코드 및 완전한 학습 데이터를 공개합니다. 프로젝트 페이지: https://allenai.org/blog/molmoact2
English
Vision-Language-Action (VLA) models aim to provide a single generalist controller for robots, but today's systems fall short on the criteria that matter for real-world deployment. Frontier models are closed, open-weight alternatives are tied to expensive hardware, reasoning-augmented policies pay prohibitive latency for their grounding, and fine-tuned success rates remain below the threshold for dependable use. We present MolmoAct2, a fully open action reasoning model built for practical deployment, advancing its predecessor along five axes. We introduce MolmoER, a VLM backbone specialized for spatial and embodied reasoning, trained on a 3.3M-sample corpus with a specialize-then-rehearse recipe. We release three new datasets spanning low-to-medium cost platforms, including MolmoAct2-BimanualYAM, 720 hours of teleoperated bimanual trajectories that constitute the largest open bimanual dataset to date, together with quality-filtered Franka (DROID) and SO100/101 subsets. We provide OpenFAST, an open-weight, open-data action tokenizer trained on millions of trajectories across five embodiments. We redesign the architecture to graft a flow-matching continuous-action expert onto a discrete-token VLM via per-layer KV-cache conditioning. Finally, we propose MolmoThink, an adaptive-depth reasoning variant that re-predicts depth tokens only for scene regions that change between timesteps, retaining geometric grounding at a fraction of prior latency. In the most extensive empirical study of any open VLA to date, spanning 7 simulation and real-world benchmarks, MolmoAct2 outperforms strong baselines including Pi-05, while MolmoER surpasses GPT-5 and Gemini Robotics ER-1.5 across 13 embodied-reasoning benchmarks. We release model weights, training code, and complete training data. Project page: https://allenai.org/blog/molmoact2