MolmoB0T: Großskalige Simulation ermöglicht Null-Shot-Manipulation
MolmoB0T: Large-Scale Simulation Enables Zero-Shot Manipulation
March 17, 2026
Autoren: Abhay Deshpande, Maya Guru, Rose Hendrix, Snehal Jauhri, Ainaz Eftekhar, Rohun Tripathi, Max Argus, Jordi Salvador, Haoquan Fang, Matthew Wallingford, Wilbert Pumacay, Yejin Kim, Quinn Pfeifer, Ying-Chun Lee, Piper Wolters, Omar Rayyan, Mingtong Zhang, Jiafei Duan, Karen Farley, Winson Han, Eli Vanderbilt, Dieter Fox, Ali Farhadi, Georgia Chalvatzaki, Dhruv Shah, Ranjay Krishna
cs.AI
Zusammenfassung
Eine vorherrschende Meinung im Robotik-Lernen besagt, dass Simulation allein nicht ausreicht; Es wird allgemein angenommen, dass ein effektiver Sim-to-Real-Transfer zumindest einige Datenerfassung in der realen Welt oder taskspezifisches Feinabstimmen erfordert, um die Lücke zwischen simulierten und physischen Umgebungen zu überbrücken. Wir stellen diese Annahme in Frage. Wir zeigen, dass mit ausreichend großen und diversen simulierten synthetischen Trainingsdaten ein Zero-Shot-Transfer in die reale Welt nicht nur möglich, sondern auch effektiv für sowohl statische als auch mobile Manipulation ist. Wir stellen MolmoBot-Engine vor, eine vollständig Open-Source-Pipeline zur prozeduralen Datengenerierung für Roboter, Aufgaben und diverse simulierte Umgebungen in MolmoSpaces. Damit veröffentlichen wir MolmoBot-Data, einen Datensatz mit 1,8 Millionen Expertentrajektorien für die Manipulation artikulierter Objekte und Pick-and-Place-Aufgaben. Wir trainieren drei Policy-Klassen: MolmoBot, ein Molmo2-basiertes Multi-Frame-Vision-Language-Modell mit einem Flow-Matching-Aktionskopf; MolmoBot-Pi0, das die π_0-Architektur repliziert, um einen direkten Vergleich zu ermöglichen; und MolmoBot-SPOC, eine leichtgewichtige Policy, die für den Edge-Einsatz geeignet und für RL-Feinabstimmung zugänglich ist. Wir evaluieren auf zwei robotischen Plattformen: der Franka FR3 für Tischmanipulationsaufgaben und dem Rainbow Robotics RB-Y1 mobilen Manipulator für das Öffnen von Türen, die Manipulation von Schubladen, die Interaktion mit Schränken und mobiles Pick-and-Place. Ohne jegliche Feinabstimmung in der realen Welt erreichen unsere Policies einen Zero-Shot-Transfer auf ungesehene Objekte und Umgebungen. Beim Tisch-Pick-and-Place erzielt MolmoBot eine Erfolgsrate von 79,2 % in Realwelt-Evaluationen über 4 Settings und übertrifft damit π_{0,5} mit 39,2 %. Unsere Ergebnisse demonstrieren, dass prozedurale Umgebungsgenerierung in Kombination mit diversen artikulierten Assets robuste Manipulations-Policies hervorbringen kann, die breit auf die reale Welt generalisieren. Technischer Blog: https://allenai.org/blog/molmobot-robot-manipulation
English
A prevailing view in robot learning is that simulation alone is not enough; effective sim-to-real transfer is widely believed to require at least some real-world data collection or task-specific fine-tuning to bridge the gap between simulated and physical environments. We challenge that assumption. With sufficiently large-scale and diverse simulated synthetic training data, we show that zero-shot transfer to the real world is not only possible, but effective for both static and mobile manipulation. We introduce MolmoBot-Engine, a fully open-source pipeline for procedural data generation across robots, tasks, and diverse simulated environments in MolmoSpaces. With it, we release MolmoBot-Data, a dataset of 1.8 million expert trajectories for articulated object manipulation and pick-and-place tasks. We train three policy classes: MolmoBot, a Molmo2-based multi-frame vision-language model with a flow-matching action head; MolmoBot-Pi0, which replicates the π_0 architecture to enable direct comparison; and MolmoBot-SPOC, a lightweight policy suitable for edge deployment and amenable to RL fine-tuning. We evaluate on two robotic platforms: the Franka FR3 for tabletop manipulation tasks and the Rainbow Robotics RB-Y1 mobile manipulator for door opening, drawer manipulation, cabinet interaction, and mobile pick-and-place. Without any real-world fine-tuning, our policies achieve zero-shot transfer to unseen objects and environments. On tabletop pick-and-place, MolmoBot achieves a success rate of 79.2% in real world evaluations across 4 settings, outperforming π_{0.5} at 39.2%. Our results demonstrate that procedural environment generation combined with diverse articulated assets can produce robust manipulation policies that generalize broadly to the real world. Technical Blog: https://allenai.org/blog/molmobot-robot-manipulation