MolmoB0T: La Simulación a Gran Escala Permite la Manipulación Zero-Shot
MolmoB0T: Large-Scale Simulation Enables Zero-Shot Manipulation
March 17, 2026
Autores: Abhay Deshpande, Maya Guru, Rose Hendrix, Snehal Jauhri, Ainaz Eftekhar, Rohun Tripathi, Max Argus, Jordi Salvador, Haoquan Fang, Matthew Wallingford, Wilbert Pumacay, Yejin Kim, Quinn Pfeifer, Ying-Chun Lee, Piper Wolters, Omar Rayyan, Mingtong Zhang, Jiafei Duan, Karen Farley, Winson Han, Eli Vanderbilt, Dieter Fox, Ali Farhadi, Georgia Chalvatzaki, Dhruv Shah, Ranjay Krishna
cs.AI
Resumen
Una visión predominante en el aprendizaje robótico sostiene que la simulación por sí sola no es suficiente; se cree ampliamente que una transferencia efectiva de simulación a realidad requiere al menos cierta recolección de datos del mundo real o un ajuste específico de la tarea para salvar la brecha entre los entornos simulados y físicos. Nosotros cuestionamos ese supuesto. Demostramos que, con datos de entrenamiento sintéticos simulados a una escala suficientemente grande y diversos, la transferencia *zero-shot* al mundo real no solo es posible, sino también efectiva para la manipulación tanto estática como móvil. Presentamos MolmoBot-Engine, una pipeline completamente de código abierto para la generación procedural de datos a través de robots, tareas y diversos entornos simulados en MolmoSpaces. Junto con ella, publicamos MolmoBot-Data, un conjunto de datos de 1.8 millones de trayectorias expertas para la manipulación de objetos articulados y tareas de pick-and-place. Entrenamos tres clases de políticas: MolmoBot, un modelo de visión y lenguaje multi-frame basado en Molmo2 con un cabezal de acción de *flow-matching*; MolmoBot-Pi0, que replica la arquitectura π₀ para permitir una comparación directa; y MolmoBot-SPOC, una política ligera adecuada para implementación en el *edge* y susceptible de ajuste mediante RL. Evaluamos en dos plataformas robóticas: la Franka FR3 para tareas de manipulación en mesas y el manipulador móvil Rainbow Robotics RB-Y1 para apertura de puertas, manipulación de cajones, interacción con armarios y pick-and-place móvil. Sin ningún ajuste en el mundo real, nuestras políticas logran una transferencia *zero-shot* a objetos y entornos no vistos. En tareas de pick-and-place en mesa, MolmoBot alcanza una tasa de éxito del 79.2% en evaluaciones del mundo real a través de 4 configuraciones, superando a π₀.₅, que logró un 39.2%. Nuestros resultados demuestran que la generación procedural de entornos combinada con activos articulados diversos puede producir políticas de manipulación robustas que generalizan ampliamente al mundo real. Blog técnico: https://allenai.org/blog/molmobot-robot-manipulation
English
A prevailing view in robot learning is that simulation alone is not enough; effective sim-to-real transfer is widely believed to require at least some real-world data collection or task-specific fine-tuning to bridge the gap between simulated and physical environments. We challenge that assumption. With sufficiently large-scale and diverse simulated synthetic training data, we show that zero-shot transfer to the real world is not only possible, but effective for both static and mobile manipulation. We introduce MolmoBot-Engine, a fully open-source pipeline for procedural data generation across robots, tasks, and diverse simulated environments in MolmoSpaces. With it, we release MolmoBot-Data, a dataset of 1.8 million expert trajectories for articulated object manipulation and pick-and-place tasks. We train three policy classes: MolmoBot, a Molmo2-based multi-frame vision-language model with a flow-matching action head; MolmoBot-Pi0, which replicates the π_0 architecture to enable direct comparison; and MolmoBot-SPOC, a lightweight policy suitable for edge deployment and amenable to RL fine-tuning. We evaluate on two robotic platforms: the Franka FR3 for tabletop manipulation tasks and the Rainbow Robotics RB-Y1 mobile manipulator for door opening, drawer manipulation, cabinet interaction, and mobile pick-and-place. Without any real-world fine-tuning, our policies achieve zero-shot transfer to unseen objects and environments. On tabletop pick-and-place, MolmoBot achieves a success rate of 79.2% in real world evaluations across 4 settings, outperforming π_{0.5} at 39.2%. Our results demonstrate that procedural environment generation combined with diverse articulated assets can produce robust manipulation policies that generalize broadly to the real world. Technical Blog: https://allenai.org/blog/molmobot-robot-manipulation