ChatPaper.aiChatPaper

MolmoB0T: Simulação em Larga Escala Possibilita Manipulação Zero-Shot

MolmoB0T: Large-Scale Simulation Enables Zero-Shot Manipulation

March 17, 2026
Autores: Abhay Deshpande, Maya Guru, Rose Hendrix, Snehal Jauhri, Ainaz Eftekhar, Rohun Tripathi, Max Argus, Jordi Salvador, Haoquan Fang, Matthew Wallingford, Wilbert Pumacay, Yejin Kim, Quinn Pfeifer, Ying-Chun Lee, Piper Wolters, Omar Rayyan, Mingtong Zhang, Jiafei Duan, Karen Farley, Winson Han, Eli Vanderbilt, Dieter Fox, Ali Farhadi, Georgia Chalvatzaki, Dhruv Shah, Ranjay Krishna
cs.AI

Resumo

Uma visão predominante na aprendizagem de robôs é que a simulação por si só não é suficiente; acredita-se amplamente que uma transferência eficaz do simulado para o real requer pelo menos alguma coleta de dados do mundo real ou ajuste fino específico da tarefa para preencher a lacuna entre ambientes simulados e físicos. Nós contestamos essa suposição. Com dados de treinamento sintéticos simulados suficientemente grandes e diversificados, mostramos que a transferência *zero-shot* para o mundo real não só é possível, mas também eficaz para manipulação estática e móvel. Apresentamos o MolmoBot-Engine, um *pipeline* totalmente de código aberto para geração procedural de dados em robôs, tarefas e diversos ambientes simulados no MolmoSpaces. Com ele, lançamos o MolmoBot-Data, um conjunto de dados com 1,8 milhão de trajetórias especializadas para manipulação de objetos articulados e tarefas de *pick-and-place*. Treinamos três classes de política: MolmoBot, um modelo de visão e linguagem baseado no Molmo2 com múltiplos quadros e um cabeçalho de ação por *flow matching*; MolmoBot-Pi0, que replica a arquitetura π₀ para permitir comparação direta; e MolmoBot-SPOC, uma política leve adequada para implantação em *edge* e passível de ajuste fino por RL. Avaliamos em duas plataformas robóticas: a Franka FR3 para tarefas de manipulação em mesa e a manipuladora móvel Rainbow Robotics RB-Y1 para abertura de portas, manipulação de gavetas, interação com armários e *pick-and-place* móvel. Sem qualquer ajuste fino no mundo real, nossas políticas alcançam transferência *zero-shot* para objetos e ambientes não vistos. No *pick-and-place* em mesa, o MolmoBot atinge uma taxa de sucesso de 79,2% em avaliações no mundo real em 4 configurações, superando o π₀.₅ em 39,2%. Nossos resultados demonstram que a geração procedural de ambientes combinada com ativos articulados diversificados pode produzir políticas de manipulação robustas que generalizam amplamente para o mundo real. Blog Técnico: https://allenai.org/blog/molmobot-robot-manipulation
English
A prevailing view in robot learning is that simulation alone is not enough; effective sim-to-real transfer is widely believed to require at least some real-world data collection or task-specific fine-tuning to bridge the gap between simulated and physical environments. We challenge that assumption. With sufficiently large-scale and diverse simulated synthetic training data, we show that zero-shot transfer to the real world is not only possible, but effective for both static and mobile manipulation. We introduce MolmoBot-Engine, a fully open-source pipeline for procedural data generation across robots, tasks, and diverse simulated environments in MolmoSpaces. With it, we release MolmoBot-Data, a dataset of 1.8 million expert trajectories for articulated object manipulation and pick-and-place tasks. We train three policy classes: MolmoBot, a Molmo2-based multi-frame vision-language model with a flow-matching action head; MolmoBot-Pi0, which replicates the π_0 architecture to enable direct comparison; and MolmoBot-SPOC, a lightweight policy suitable for edge deployment and amenable to RL fine-tuning. We evaluate on two robotic platforms: the Franka FR3 for tabletop manipulation tasks and the Rainbow Robotics RB-Y1 mobile manipulator for door opening, drawer manipulation, cabinet interaction, and mobile pick-and-place. Without any real-world fine-tuning, our policies achieve zero-shot transfer to unseen objects and environments. On tabletop pick-and-place, MolmoBot achieves a success rate of 79.2% in real world evaluations across 4 settings, outperforming π_{0.5} at 39.2%. Our results demonstrate that procedural environment generation combined with diverse articulated assets can produce robust manipulation policies that generalize broadly to the real world. Technical Blog: https://allenai.org/blog/molmobot-robot-manipulation
PDF22March 19, 2026