ChatPaper.aiChatPaper

MolmoB0T: La Simulazione su Larga Scala Abilita la Manipolazione Zero-Shot

MolmoB0T: Large-Scale Simulation Enables Zero-Shot Manipulation

March 17, 2026
Autori: Abhay Deshpande, Maya Guru, Rose Hendrix, Snehal Jauhri, Ainaz Eftekhar, Rohun Tripathi, Max Argus, Jordi Salvador, Haoquan Fang, Matthew Wallingford, Wilbert Pumacay, Yejin Kim, Quinn Pfeifer, Ying-Chun Lee, Piper Wolters, Omar Rayyan, Mingtong Zhang, Jiafei Duan, Karen Farley, Winson Han, Eli Vanderbilt, Dieter Fox, Ali Farhadi, Georgia Chalvatzaki, Dhruv Shah, Ranjay Krishna
cs.AI

Abstract

Un'opinione prevalente nell'apprendimento robotico è che la simulazione da sola non sia sufficiente; si ritiene ampiamente che un trasferimento efficace da simulazione a realtà richieda almeno una certa raccolta di dati nel mondo reale o una messa a punto specifica per il compito per colmare il divario tra ambienti simulati e fisici. Noi contestiamo questo assunto. Con dati di addestramento sintetici simulati sufficientemente su larga scala e diversificati, dimostriamo che il trasferimento zero-shot nel mondo reale non solo è possibile, ma anche efficace sia per la manipolazione statica che mobile. Introduciamo MolmoBot-Engine, una pipeline completamente open-source per la generazione procedurale di dati su robot, compiti e ambienti simulati diversificati in MolmoSpaces. Con essa, rilasciamo MolmoBot-Data, un dataset di 1,8 milioni di traiettorie esperte per la manipolazione di oggetti articolati e compiti di pick-and-place. Addestriamo tre classi di policy: MolmoBot, un modello visione-linguaggio multi-frame basato su Molmo2 con una testa di azione a flusso di corrispondenza (flow-matching); MolmoBot-Pi0, che replica l'architettura π_0 per consentire un confronto diretto; e MolmoBot-SPOC, una policy leggera adatta per il deployment su dispositivi edge e suscettibile di messa a punto con RL. Valutiamo su due piattaforme robotiche: il Franka FR3 per compiti di manipolazione su tavolo e il manipolatore mobile Rainbow Robotics RB-Y1 per l'apertura di porte, la manipolazione di cassetti, l'interazione con armadi e il pick-and-place mobile. Senza alcuna messa a punto nel mondo reale, le nostre policy raggiungono un trasferimento zero-shot su oggetti e ambienti mai visti. Sul pick-and-place su tavolo, MolmoBot raggiunge un tasso di successo del 79,2% in valutazioni nel mondo reale su 4 scenari, superando π_{0,5} al 39,2%. I nostri risultati dimostrano che la generazione procedurale di ambienti combinata con asset articolati diversificati può produrre policy di manipolazione robuste che generalizzano ampiamente al mondo reale. Blog Tecnico: https://allenai.org/blog/molmobot-robot-manipulation
English
A prevailing view in robot learning is that simulation alone is not enough; effective sim-to-real transfer is widely believed to require at least some real-world data collection or task-specific fine-tuning to bridge the gap between simulated and physical environments. We challenge that assumption. With sufficiently large-scale and diverse simulated synthetic training data, we show that zero-shot transfer to the real world is not only possible, but effective for both static and mobile manipulation. We introduce MolmoBot-Engine, a fully open-source pipeline for procedural data generation across robots, tasks, and diverse simulated environments in MolmoSpaces. With it, we release MolmoBot-Data, a dataset of 1.8 million expert trajectories for articulated object manipulation and pick-and-place tasks. We train three policy classes: MolmoBot, a Molmo2-based multi-frame vision-language model with a flow-matching action head; MolmoBot-Pi0, which replicates the π_0 architecture to enable direct comparison; and MolmoBot-SPOC, a lightweight policy suitable for edge deployment and amenable to RL fine-tuning. We evaluate on two robotic platforms: the Franka FR3 for tabletop manipulation tasks and the Rainbow Robotics RB-Y1 mobile manipulator for door opening, drawer manipulation, cabinet interaction, and mobile pick-and-place. Without any real-world fine-tuning, our policies achieve zero-shot transfer to unseen objects and environments. On tabletop pick-and-place, MolmoBot achieves a success rate of 79.2% in real world evaluations across 4 settings, outperforming π_{0.5} at 39.2%. Our results demonstrate that procedural environment generation combined with diverse articulated assets can produce robust manipulation policies that generalize broadly to the real world. Technical Blog: https://allenai.org/blog/molmobot-robot-manipulation
PDF92March 31, 2026