MolmoB0T:大規模シミュレーションによるゼロショットマニピュレーションの実現
MolmoB0T: Large-Scale Simulation Enables Zero-Shot Manipulation
March 17, 2026
著者: Abhay Deshpande, Maya Guru, Rose Hendrix, Snehal Jauhri, Ainaz Eftekhar, Rohun Tripathi, Max Argus, Jordi Salvador, Haoquan Fang, Matthew Wallingford, Wilbert Pumacay, Yejin Kim, Quinn Pfeifer, Ying-Chun Lee, Piper Wolters, Omar Rayyan, Mingtong Zhang, Jiafei Duan, Karen Farley, Winson Han, Eli Vanderbilt, Dieter Fox, Ali Farhadi, Georgia Chalvatzaki, Dhruv Shah, Ranjay Krishna
cs.AI
要旨
ロボット学習における従来の見解では、シミュレーションのみでは不十分であり、シミュレーション環境と物理環境のギャップを埋めるには、少なくとも何らかの実世界データ収集やタスク固有のファインチューニングが必要であると広く信じられてきた。我々はこの前提に異議を唱える。十分に大規模で多様な模擬合成訓練データを用いることで、実世界へのゼロショット転移が可能であるばかりか、静的および移動把持の両方に対して有効であることを示す。我々はMolmoSpaces内で、ロボット、タスク、多様なシミュレーション環境にわたるプロシージャルデータ生成のための完全オープンソースのパイプラインであるMolmoBot-Engineを紹介する。これと併せて、関節オブジェクト操作とピックアンドプレースタスクのための180万のエキスパート軌道からなるデータセットMolmoBot-Dataを公開する。我々は3つのポリシークラスを訓練する:フローマッチング行動ヘッドを備えたMolmo2ベースのマルチフレーム視覚言語モデルであるMolmoBot、直接比較を可能にするためにπ_0アーキテクチャを複製したMolmoBot-Pi0、エッジデプロイに適しRLファインチューニングが可能な軽量ポリシーであるMolmoBot-SPOCである。2つのロボットプラットフォームで評価を行う:卓上把持タスク用のFranka FR3と、ドア開閉、引き出し操作、キャビネット操作、移動ピックアンドプレース用のRainbow Robotics RB-Y1移動マニピュレータである。実世界のファインチューニングを一切行わずに、我々のポリシーは未見のオブジェクトと環境へのゼロショット転移を達成する。卓上ピックアンドプレースでは、MolmoBotは4設定にわたる実世界評価で79.2%の成功率を達成し、π_{0.5}の39.2%を上回る。我々の結果は、プロシージャルな環境生成と多様な関節アセットの組み合わせが、実世界に広く汎化する堅牢な把持ポリシーを生み出し得ることを実証する。技術ブログ: https://allenai.org/blog/molmobot-robot-manipulation
English
A prevailing view in robot learning is that simulation alone is not enough; effective sim-to-real transfer is widely believed to require at least some real-world data collection or task-specific fine-tuning to bridge the gap between simulated and physical environments. We challenge that assumption. With sufficiently large-scale and diverse simulated synthetic training data, we show that zero-shot transfer to the real world is not only possible, but effective for both static and mobile manipulation. We introduce MolmoBot-Engine, a fully open-source pipeline for procedural data generation across robots, tasks, and diverse simulated environments in MolmoSpaces. With it, we release MolmoBot-Data, a dataset of 1.8 million expert trajectories for articulated object manipulation and pick-and-place tasks. We train three policy classes: MolmoBot, a Molmo2-based multi-frame vision-language model with a flow-matching action head; MolmoBot-Pi0, which replicates the π_0 architecture to enable direct comparison; and MolmoBot-SPOC, a lightweight policy suitable for edge deployment and amenable to RL fine-tuning. We evaluate on two robotic platforms: the Franka FR3 for tabletop manipulation tasks and the Rainbow Robotics RB-Y1 mobile manipulator for door opening, drawer manipulation, cabinet interaction, and mobile pick-and-place. Without any real-world fine-tuning, our policies achieve zero-shot transfer to unseen objects and environments. On tabletop pick-and-place, MolmoBot achieves a success rate of 79.2% in real world evaluations across 4 settings, outperforming π_{0.5} at 39.2%. Our results demonstrate that procedural environment generation combined with diverse articulated assets can produce robust manipulation policies that generalize broadly to the real world. Technical Blog: https://allenai.org/blog/molmobot-robot-manipulation