MolmoB0T: Grootschalige Simulatie Maakt Zero-Shot Manipulatie Mogelijk
MolmoB0T: Large-Scale Simulation Enables Zero-Shot Manipulation
March 17, 2026
Auteurs: Abhay Deshpande, Maya Guru, Rose Hendrix, Snehal Jauhri, Ainaz Eftekhar, Rohun Tripathi, Max Argus, Jordi Salvador, Haoquan Fang, Matthew Wallingford, Wilbert Pumacay, Yejin Kim, Quinn Pfeifer, Ying-Chun Lee, Piper Wolters, Omar Rayyan, Mingtong Zhang, Jiafei Duan, Karen Farley, Winson Han, Eli Vanderbilt, Dieter Fox, Ali Farhadi, Georgia Chalvatzaki, Dhruv Shah, Ranjay Krishna
cs.AI
Samenvatting
Een gangbare opvatting in robotleren is dat simulatie alleen niet voldoende is; men gaat er algemeen van uit dat effectieve sim-to-real-transfer ten minste enige verzameling van real-world gegevens of taakspecifieke fine-tuning vereist om de kloof tussen gesimuleerde en fysieke omgevingen te overbruggen. Wij dagen die aanname uit. Wij tonen aan dat zero-shot-transfer naar de echte wereld niet alleen mogelijk is, maar ook effectief voor zowel statische als mobiele manipulatie, mits er gebruik wordt gemaakt van voldoende grootschalige en diverse gesimuleerde synthetische trainingsgegevens. Wij introduceren MolmoBot-Engine, een volledig open-source pijplijn voor procedurele datageneratie voor verschillende robots, taken en diverse gesimuleerde omgevingen in MolmoSpaces. Hiermee lanceren wij MolmoBot-Data, een dataset van 1,8 miljoen expert trajecten voor de manipulatie van gearticuleerde objecten en pick-and-place taken. Wij trainen drie beleidsklassen: MolmoBot, een op Molmo2 gebaseerd multi-frame vision-language model met een flow-matching actie-head; MolmoBot-Pi0, dat de π_0-architectuur repliceert om directe vergelijking mogelijk te maken; en MolmoBot-SPOC, een lichtgewicht beleid geschikt voor edge-implementatie en vatbaar voor RL-fine-tuning. Wij evalueren op twee robotplatforms: de Franka FR3 voor tafelmanipulatietaken en de Rainbow Robotics RB-Y1 mobiele manipulator voor het openen van deuren, lademanipulatie, interactie met kasten en mobiele pick-and-place. Zonder enige real-world fine-tuning bereiken onze beleidsmodellen zero-shot-transfer naar onbekende objecten en omgevingen. Voor pick-and-place op tafelniveau behaalt MolmoBot een slagingspercentage van 79,2% in real-world evaluaties over 4 settings, wat beter is dan π_{0,5} met 39,2%. Onze resultaten tonen aan dat procedurele omgevingsgeneratie in combinatie met diverse gearticuleerde assets robuuste manipulatiebeleidsmodellen kan opleveren die breed generaliseren naar de echte wereld. Technische Blog: https://allenai.org/blog/molmobot-robot-manipulation
English
A prevailing view in robot learning is that simulation alone is not enough; effective sim-to-real transfer is widely believed to require at least some real-world data collection or task-specific fine-tuning to bridge the gap between simulated and physical environments. We challenge that assumption. With sufficiently large-scale and diverse simulated synthetic training data, we show that zero-shot transfer to the real world is not only possible, but effective for both static and mobile manipulation. We introduce MolmoBot-Engine, a fully open-source pipeline for procedural data generation across robots, tasks, and diverse simulated environments in MolmoSpaces. With it, we release MolmoBot-Data, a dataset of 1.8 million expert trajectories for articulated object manipulation and pick-and-place tasks. We train three policy classes: MolmoBot, a Molmo2-based multi-frame vision-language model with a flow-matching action head; MolmoBot-Pi0, which replicates the π_0 architecture to enable direct comparison; and MolmoBot-SPOC, a lightweight policy suitable for edge deployment and amenable to RL fine-tuning. We evaluate on two robotic platforms: the Franka FR3 for tabletop manipulation tasks and the Rainbow Robotics RB-Y1 mobile manipulator for door opening, drawer manipulation, cabinet interaction, and mobile pick-and-place. Without any real-world fine-tuning, our policies achieve zero-shot transfer to unseen objects and environments. On tabletop pick-and-place, MolmoBot achieves a success rate of 79.2% in real world evaluations across 4 settings, outperforming π_{0.5} at 39.2%. Our results demonstrate that procedural environment generation combined with diverse articulated assets can produce robust manipulation policies that generalize broadly to the real world. Technical Blog: https://allenai.org/blog/molmobot-robot-manipulation