MolmoB0T : La simulation à grande échelle permet la manipulation sans apprentissage préalable
MolmoB0T: Large-Scale Simulation Enables Zero-Shot Manipulation
March 17, 2026
Auteurs: Abhay Deshpande, Maya Guru, Rose Hendrix, Snehal Jauhri, Ainaz Eftekhar, Rohun Tripathi, Max Argus, Jordi Salvador, Haoquan Fang, Matthew Wallingford, Wilbert Pumacay, Yejin Kim, Quinn Pfeifer, Ying-Chun Lee, Piper Wolters, Omar Rayyan, Mingtong Zhang, Jiafei Duan, Karen Farley, Winson Han, Eli Vanderbilt, Dieter Fox, Ali Farhadi, Georgia Chalvatzaki, Dhruv Shah, Ranjay Krishna
cs.AI
Résumé
Une opinion répandue en apprentissage robotique soutient que la simulation seule est insuffisante ; on pense généralement qu'un transfert efficace du simulé au réel nécessite au moins une collecte de données dans le monde réel ou un ajustement spécifique à la tâche pour combler l'écart entre les environnements simulés et physiques. Nous remettons en cause cette hypothèse. En utilisant des données d'entraînement synthétiques simulées suffisamment vastes et diversifiées, nous montrons qu'un transfert zero-shot vers le monde réel est non seulement possible, mais aussi efficace pour la manipulation statique et mobile. Nous présentons MolmoBot-Engine, une pipeline entièrement open-source pour la génération procédurale de données couvrant différents robots, tâches et environnements simulés divers dans MolmoSpaces. Avec celle-ci, nous publions MolmoBot-Data, un jeu de données de 1,8 million de trajectoires expertes pour la manipulation d'objets articulés et les tâches de pick-and-place. Nous entraînons trois classes de politiques : MolmoBot, un modèle vision-langage multi-images basé sur Molmo2 avec une tête d'action par flow-matching ; MolmoBot-Pi0, qui reproduit l'architecture π_0 pour permettre une comparaison directe ; et MolmoBot-SPOC, une politique légère adaptée au déploiement en périphérie et susceptible d'être affinée par apprentissage par renforcement. Nous évaluons sur deux plateformes robotiques : le Franka FR3 pour les tâches de manipulation sur table et le manipulateur mobile Rainbow Robotics RB-Y1 pour l'ouverture de portes, la manipulation de tiroirs, l'interaction avec des armoires et le pick-and-place mobile. Sans aucun ajustement dans le monde réel, nos politiques réalisent un transfert zero-shot vers des objets et environnements non vus. Sur le pick-and-place sur table, MolmoBot atteint un taux de réussite de 79,2 % dans les évaluations en monde réel sur 4 configurations, surpassant π_{0,5} à 39,2 %. Nos résultats démontrent que la génération procédurale d'environnements combinée à des assets articulés diversifiés peut produire des politiques de manipulation robustes qui généralisent largement au monde réel. Blog Technique : https://allenai.org/blog/molmobot-robot-manipulation
English
A prevailing view in robot learning is that simulation alone is not enough; effective sim-to-real transfer is widely believed to require at least some real-world data collection or task-specific fine-tuning to bridge the gap between simulated and physical environments. We challenge that assumption. With sufficiently large-scale and diverse simulated synthetic training data, we show that zero-shot transfer to the real world is not only possible, but effective for both static and mobile manipulation. We introduce MolmoBot-Engine, a fully open-source pipeline for procedural data generation across robots, tasks, and diverse simulated environments in MolmoSpaces. With it, we release MolmoBot-Data, a dataset of 1.8 million expert trajectories for articulated object manipulation and pick-and-place tasks. We train three policy classes: MolmoBot, a Molmo2-based multi-frame vision-language model with a flow-matching action head; MolmoBot-Pi0, which replicates the π_0 architecture to enable direct comparison; and MolmoBot-SPOC, a lightweight policy suitable for edge deployment and amenable to RL fine-tuning. We evaluate on two robotic platforms: the Franka FR3 for tabletop manipulation tasks and the Rainbow Robotics RB-Y1 mobile manipulator for door opening, drawer manipulation, cabinet interaction, and mobile pick-and-place. Without any real-world fine-tuning, our policies achieve zero-shot transfer to unseen objects and environments. On tabletop pick-and-place, MolmoBot achieves a success rate of 79.2% in real world evaluations across 4 settings, outperforming π_{0.5} at 39.2%. Our results demonstrate that procedural environment generation combined with diverse articulated assets can produce robust manipulation policies that generalize broadly to the real world. Technical Blog: https://allenai.org/blog/molmobot-robot-manipulation