MolmoB0T: La Simulación a Gran Escala Permite la Manipulación Zero-Shot

Resumen

Una visión predominante en el aprendizaje robótico sostiene que la simulación por sí sola no es suficiente; se cree ampliamente que una transferencia efectiva de simulación a realidad requiere al menos cierta recolección de datos del mundo real o un ajuste específico de la tarea para salvar la brecha entre los entornos simulados y físicos. Nosotros cuestionamos ese supuesto. Demostramos que, con datos de entrenamiento sintéticos simulados a una escala suficientemente grande y diversos, la transferencia *zero-shot* al mundo real no solo es posible, sino también efectiva para la manipulación tanto estática como móvil. Presentamos MolmoBot-Engine, una pipeline completamente de código abierto para la generación procedural de datos a través de robots, tareas y diversos entornos simulados en MolmoSpaces. Junto con ella, publicamos MolmoBot-Data, un conjunto de datos de 1.8 millones de trayectorias expertas para la manipulación de objetos articulados y tareas de pick-and-place. Entrenamos tres clases de políticas: MolmoBot, un modelo de visión y lenguaje multi-frame basado en Molmo2 con un cabezal de acción de *flow-matching*; MolmoBot-Pi0, que replica la arquitectura π₀ para permitir una comparación directa; y MolmoBot-SPOC, una política ligera adecuada para implementación en el *edge* y susceptible de ajuste mediante RL. Evaluamos en dos plataformas robóticas: la Franka FR3 para tareas de manipulación en mesas y el manipulador móvil Rainbow Robotics RB-Y1 para apertura de puertas, manipulación de cajones, interacción con armarios y pick-and-place móvil. Sin ningún ajuste en el mundo real, nuestras políticas logran una transferencia *zero-shot* a objetos y entornos no vistos. En tareas de pick-and-place en mesa, MolmoBot alcanza una tasa de éxito del 79.2% en evaluaciones del mundo real a través de 4 configuraciones, superando a π₀.₅, que logró un 39.2%. Nuestros resultados demuestran que la generación procedural de entornos combinada con activos articulados diversos puede producir políticas de manipulación robustas que generalizan ampliamente al mundo real. Blog técnico: https://allenai.org/blog/molmobot-robot-manipulation

English

A prevailing view in robot learning is that simulation alone is not enough; effective sim-to-real transfer is widely believed to require at least some real-world data collection or task-specific fine-tuning to bridge the gap between simulated and physical environments. We challenge that assumption. With sufficiently large-scale and diverse simulated synthetic training data, we show that zero-shot transfer to the real world is not only possible, but effective for both static and mobile manipulation. We introduce MolmoBot-Engine, a fully open-source pipeline for procedural data generation across robots, tasks, and diverse simulated environments in MolmoSpaces. With it, we release MolmoBot-Data, a dataset of 1.8 million expert trajectories for articulated object manipulation and pick-and-place tasks. We train three policy classes: MolmoBot, a Molmo2-based multi-frame vision-language model with a flow-matching action head; MolmoBot-Pi0, which replicates the π_0 architecture to enable direct comparison; and MolmoBot-SPOC, a lightweight policy suitable for edge deployment and amenable to RL fine-tuning. We evaluate on two robotic platforms: the Franka FR3 for tabletop manipulation tasks and the Rainbow Robotics RB-Y1 mobile manipulator for door opening, drawer manipulation, cabinet interaction, and mobile pick-and-place. Without any real-world fine-tuning, our policies achieve zero-shot transfer to unseen objects and environments. On tabletop pick-and-place, MolmoBot achieves a success rate of 79.2% in real world evaluations across 4 settings, outperforming π_{0.5} at 39.2%. Our results demonstrate that procedural environment generation combined with diverse articulated assets can produce robust manipulation policies that generalize broadly to the real world. Technical Blog: https://allenai.org/blog/molmobot-robot-manipulation

MolmoB0T: La Simulación a Gran Escala Permite la Manipulación Zero-Shot

MolmoB0T: Large-Scale Simulation Enables Zero-Shot Manipulation

Resumen

Support