MolmoB0T: Simulação em Larga Escala Possibilita Manipulação Zero-Shot

Resumo

Uma visão predominante na aprendizagem de robôs é que a simulação por si só não é suficiente; acredita-se amplamente que uma transferência eficaz do simulado para o real requer pelo menos alguma coleta de dados do mundo real ou ajuste fino específico da tarefa para preencher a lacuna entre ambientes simulados e físicos. Nós contestamos essa suposição. Com dados de treinamento sintéticos simulados suficientemente grandes e diversificados, mostramos que a transferência *zero-shot* para o mundo real não só é possível, mas também eficaz para manipulação estática e móvel. Apresentamos o MolmoBot-Engine, um *pipeline* totalmente de código aberto para geração procedural de dados em robôs, tarefas e diversos ambientes simulados no MolmoSpaces. Com ele, lançamos o MolmoBot-Data, um conjunto de dados com 1,8 milhão de trajetórias especializadas para manipulação de objetos articulados e tarefas de *pick-and-place*. Treinamos três classes de política: MolmoBot, um modelo de visão e linguagem baseado no Molmo2 com múltiplos quadros e um cabeçalho de ação por *flow matching*; MolmoBot-Pi0, que replica a arquitetura π₀ para permitir comparação direta; e MolmoBot-SPOC, uma política leve adequada para implantação em *edge* e passível de ajuste fino por RL. Avaliamos em duas plataformas robóticas: a Franka FR3 para tarefas de manipulação em mesa e a manipuladora móvel Rainbow Robotics RB-Y1 para abertura de portas, manipulação de gavetas, interação com armários e *pick-and-place* móvel. Sem qualquer ajuste fino no mundo real, nossas políticas alcançam transferência *zero-shot* para objetos e ambientes não vistos. No *pick-and-place* em mesa, o MolmoBot atinge uma taxa de sucesso de 79,2% em avaliações no mundo real em 4 configurações, superando o π₀.₅ em 39,2%. Nossos resultados demonstram que a geração procedural de ambientes combinada com ativos articulados diversificados pode produzir políticas de manipulação robustas que generalizam amplamente para o mundo real. Blog Técnico: https://allenai.org/blog/molmobot-robot-manipulation

English

A prevailing view in robot learning is that simulation alone is not enough; effective sim-to-real transfer is widely believed to require at least some real-world data collection or task-specific fine-tuning to bridge the gap between simulated and physical environments. We challenge that assumption. With sufficiently large-scale and diverse simulated synthetic training data, we show that zero-shot transfer to the real world is not only possible, but effective for both static and mobile manipulation. We introduce MolmoBot-Engine, a fully open-source pipeline for procedural data generation across robots, tasks, and diverse simulated environments in MolmoSpaces. With it, we release MolmoBot-Data, a dataset of 1.8 million expert trajectories for articulated object manipulation and pick-and-place tasks. We train three policy classes: MolmoBot, a Molmo2-based multi-frame vision-language model with a flow-matching action head; MolmoBot-Pi0, which replicates the π_0 architecture to enable direct comparison; and MolmoBot-SPOC, a lightweight policy suitable for edge deployment and amenable to RL fine-tuning. We evaluate on two robotic platforms: the Franka FR3 for tabletop manipulation tasks and the Rainbow Robotics RB-Y1 mobile manipulator for door opening, drawer manipulation, cabinet interaction, and mobile pick-and-place. Without any real-world fine-tuning, our policies achieve zero-shot transfer to unseen objects and environments. On tabletop pick-and-place, MolmoBot achieves a success rate of 79.2% in real world evaluations across 4 settings, outperforming π_{0.5} at 39.2%. Our results demonstrate that procedural environment generation combined with diverse articulated assets can produce robust manipulation policies that generalize broadly to the real world. Technical Blog: https://allenai.org/blog/molmobot-robot-manipulation

MolmoB0T: Simulação em Larga Escala Possibilita Manipulação Zero-Shot

MolmoB0T: Large-Scale Simulation Enables Zero-Shot Manipulation

Resumo

Support