MolmoB0T: La Simulazione su Larga Scala Abilita la Manipolazione Zero-Shot

Abstract

Un'opinione prevalente nell'apprendimento robotico è che la simulazione da sola non sia sufficiente; si ritiene ampiamente che un trasferimento efficace da simulazione a realtà richieda almeno una certa raccolta di dati nel mondo reale o una messa a punto specifica per il compito per colmare il divario tra ambienti simulati e fisici. Noi contestiamo questo assunto. Con dati di addestramento sintetici simulati sufficientemente su larga scala e diversificati, dimostriamo che il trasferimento zero-shot nel mondo reale non solo è possibile, ma anche efficace sia per la manipolazione statica che mobile. Introduciamo MolmoBot-Engine, una pipeline completamente open-source per la generazione procedurale di dati su robot, compiti e ambienti simulati diversificati in MolmoSpaces. Con essa, rilasciamo MolmoBot-Data, un dataset di 1,8 milioni di traiettorie esperte per la manipolazione di oggetti articolati e compiti di pick-and-place. Addestriamo tre classi di policy: MolmoBot, un modello visione-linguaggio multi-frame basato su Molmo2 con una testa di azione a flusso di corrispondenza (flow-matching); MolmoBot-Pi0, che replica l'architettura π_0 per consentire un confronto diretto; e MolmoBot-SPOC, una policy leggera adatta per il deployment su dispositivi edge e suscettibile di messa a punto con RL. Valutiamo su due piattaforme robotiche: il Franka FR3 per compiti di manipolazione su tavolo e il manipolatore mobile Rainbow Robotics RB-Y1 per l'apertura di porte, la manipolazione di cassetti, l'interazione con armadi e il pick-and-place mobile. Senza alcuna messa a punto nel mondo reale, le nostre policy raggiungono un trasferimento zero-shot su oggetti e ambienti mai visti. Sul pick-and-place su tavolo, MolmoBot raggiunge un tasso di successo del 79,2% in valutazioni nel mondo reale su 4 scenari, superando π_{0,5} al 39,2%. I nostri risultati dimostrano che la generazione procedurale di ambienti combinata con asset articolati diversificati può produrre policy di manipolazione robuste che generalizzano ampiamente al mondo reale. Blog Tecnico: https://allenai.org/blog/molmobot-robot-manipulation

English

A prevailing view in robot learning is that simulation alone is not enough; effective sim-to-real transfer is widely believed to require at least some real-world data collection or task-specific fine-tuning to bridge the gap between simulated and physical environments. We challenge that assumption. With sufficiently large-scale and diverse simulated synthetic training data, we show that zero-shot transfer to the real world is not only possible, but effective for both static and mobile manipulation. We introduce MolmoBot-Engine, a fully open-source pipeline for procedural data generation across robots, tasks, and diverse simulated environments in MolmoSpaces. With it, we release MolmoBot-Data, a dataset of 1.8 million expert trajectories for articulated object manipulation and pick-and-place tasks. We train three policy classes: MolmoBot, a Molmo2-based multi-frame vision-language model with a flow-matching action head; MolmoBot-Pi0, which replicates the π_0 architecture to enable direct comparison; and MolmoBot-SPOC, a lightweight policy suitable for edge deployment and amenable to RL fine-tuning. We evaluate on two robotic platforms: the Franka FR3 for tabletop manipulation tasks and the Rainbow Robotics RB-Y1 mobile manipulator for door opening, drawer manipulation, cabinet interaction, and mobile pick-and-place. Without any real-world fine-tuning, our policies achieve zero-shot transfer to unseen objects and environments. On tabletop pick-and-place, MolmoBot achieves a success rate of 79.2% in real world evaluations across 4 settings, outperforming π_{0.5} at 39.2%. Our results demonstrate that procedural environment generation combined with diverse articulated assets can produce robust manipulation policies that generalize broadly to the real world. Technical Blog: https://allenai.org/blog/molmobot-robot-manipulation

MolmoB0T: La Simulazione su Larga Scala Abilita la Manipolazione Zero-Shot

MolmoB0T: Large-Scale Simulation Enables Zero-Shot Manipulation

Abstract

Support