MolmoB0T: 대규모 시뮬레이션 기반 제로샷 조작 구현
MolmoB0T: Large-Scale Simulation Enables Zero-Shot Manipulation
March 17, 2026
저자: Abhay Deshpande, Maya Guru, Rose Hendrix, Snehal Jauhri, Ainaz Eftekhar, Rohun Tripathi, Max Argus, Jordi Salvador, Haoquan Fang, Matthew Wallingford, Wilbert Pumacay, Yejin Kim, Quinn Pfeifer, Ying-Chun Lee, Piper Wolters, Omar Rayyan, Mingtong Zhang, Jiafei Duan, Karen Farley, Winson Han, Eli Vanderbilt, Dieter Fox, Ali Farhadi, Georgia Chalvatzaki, Dhruv Shah, Ranjay Krishna
cs.AI
초록
로봇 학습 분야에서 널리 받아들여지는 견해는 시뮬레이션만으로는 부족하며, 시뮬레이션 환경과 실제 물리 환경 간의 차이를 극복하기 위해서는 최소한의 실제 데이터 수집이나 작업별 미세 조정이 필수적이라는 것입니다. 우리는 이러한 가정에 의문을 제기합니다. 충분히 대규모이고 다양한 시뮬레이션 기반 합성 학습 데이터를 통해, 실제 환경으로의 제로샷 전환이 정적 및 이동 조작 모두에 대해 가능할 뿐만 아니라 효과적임을 보여줍니다. 우리는 MolmoSpaces 내에서 로봇, 작업, 다양한 시뮬레이션 환경 전반에 걸친 절차적 데이터 생성을 위한 완전한 오픈소스 파이프라인인 MolmoBot-Engine을 소개합니다. 이를 통해 관절형 객체 조작 및 픽앤플레이스 작업을 위한 180만 개의 전문가 궤적 데이터셋인 MolmoBot-Data를 공개합니다. 우리는 세 가지 정책 클래스를 학습했습니다: 흐름 매칭 액션 헤드를 갖춘 Molmo2 기반 다중 프레임 비전-언어 모델인 MolmoBot; 직접적인 비교가 가능하도록 π_0 아키텍처를 재현한 MolmoBot-Pi0; 엣지 배포에 적합하고 RL 미세 조정이 가능한 경량 정책인 MolmoBot-SPOC입니다. 우리는 두 가지 로봇 플랫폼에서 평가를 진행했습니다: 탑탑 조작 작업용 Franka FR3와 문 열기, 서랍 조작, 캐비닛 상호작용, 이동 픽앤플레이스용 Rainbow Robotics RB-Y1 이동 조작기입니다. 실제 환경 미세 조정 없이도, 우리의 정책들은 보지 않은 객체와 환경에 대해 제로샷 전환을 달성합니다. 탑탑 픽앤플레이스에서 MolmoBot는 4가지 설정에 걸친 실제 평가에서 79.2%의 성공률을 기록하며, 39.2%를 보인 π_{0.5}를 능가했습니다. 우리의 결과는 절차적 환경 생성과 다양한 관절형 애셋의 결합이 실제 세계로 광범위하게 일반화되는 강력한 조작 정책을 생성할 수 있음을 입증합니다. 기술 블로그: https://allenai.org/blog/molmobot-robot-manipulation
English
A prevailing view in robot learning is that simulation alone is not enough; effective sim-to-real transfer is widely believed to require at least some real-world data collection or task-specific fine-tuning to bridge the gap between simulated and physical environments. We challenge that assumption. With sufficiently large-scale and diverse simulated synthetic training data, we show that zero-shot transfer to the real world is not only possible, but effective for both static and mobile manipulation. We introduce MolmoBot-Engine, a fully open-source pipeline for procedural data generation across robots, tasks, and diverse simulated environments in MolmoSpaces. With it, we release MolmoBot-Data, a dataset of 1.8 million expert trajectories for articulated object manipulation and pick-and-place tasks. We train three policy classes: MolmoBot, a Molmo2-based multi-frame vision-language model with a flow-matching action head; MolmoBot-Pi0, which replicates the π_0 architecture to enable direct comparison; and MolmoBot-SPOC, a lightweight policy suitable for edge deployment and amenable to RL fine-tuning. We evaluate on two robotic platforms: the Franka FR3 for tabletop manipulation tasks and the Rainbow Robotics RB-Y1 mobile manipulator for door opening, drawer manipulation, cabinet interaction, and mobile pick-and-place. Without any real-world fine-tuning, our policies achieve zero-shot transfer to unseen objects and environments. On tabletop pick-and-place, MolmoBot achieves a success rate of 79.2% in real world evaluations across 4 settings, outperforming π_{0.5} at 39.2%. Our results demonstrate that procedural environment generation combined with diverse articulated assets can produce robust manipulation policies that generalize broadly to the real world. Technical Blog: https://allenai.org/blog/molmobot-robot-manipulation