MolmoB0T: Крупномасштабное моделирование обеспечивает манипуляции без предварительного обучения
MolmoB0T: Large-Scale Simulation Enables Zero-Shot Manipulation
March 17, 2026
Авторы: Abhay Deshpande, Maya Guru, Rose Hendrix, Snehal Jauhri, Ainaz Eftekhar, Rohun Tripathi, Max Argus, Jordi Salvador, Haoquan Fang, Matthew Wallingford, Wilbert Pumacay, Yejin Kim, Quinn Pfeifer, Ying-Chun Lee, Piper Wolters, Omar Rayyan, Mingtong Zhang, Jiafei Duan, Karen Farley, Winson Han, Eli Vanderbilt, Dieter Fox, Ali Farhadi, Georgia Chalvatzaki, Dhruv Shah, Ranjay Krishna
cs.AI
Аннотация
Преобладающая точка зрения в области обучения роботов гласит, что одной лишь симуляции недостаточно; широко распространено мнение, что для эффективного переноса из симуляции в реальность требуется как минимум некоторый сбор данных в реальном мире или специфичная для задачи донастройка, чтобы преодолеть разрыв между моделируемой и физической средой. Мы оспариваем это предположение. Показываем, что при наличии достаточно масштабных и разнообразных синтетических обучающих данных, сгенерированных в симуляции, передача в реальный мир без дообучения (zero-shot) не только возможна, но и эффективна как для статического, так и для мобильного манипулирования. Мы представляем MolmoBot-Engine — полностью открытый конвейер для процедурной генерации данных для различных роботов, задач и разнообразных моделируемых сред в MolmoSpaces. Вместе с ним мы выпускаем MolmoBot-Data, набор данных, содержащий 1.8 миллиона экспертных траекторий для манипулирования шарнирными объектами и задач pick-and-place. Мы обучаем три класса политик: MolmoBot — многокадровую визуально-языковую модель на основе Molmo2 с головой действий на основе flow matching; MolmoBot-Pi0, который воспроизводит архитектуру π_0 для обеспечения прямого сравнения; и MolmoBot-SPOC — облегченную политику, подходящую для развертывания на периферийных устройствах и пригодную для донастройки с подкреплением. Оценка проводится на двух роботизированных платформах: Franka FR3 для задач манипулирования на столе и мобильном манипуляторе Rainbow Robotics RB-Y1 для открывания дверей, манипулирования ящиками, взаимодействия с шкафами и мобильного pick-and-place. Без какой-либо донастройки в реальном мире наши политики достигают переноса без дообучения на незнакомые объекты и среды. В задаче pick-and-place на столе MolmoBot достигает показателя успеха 79.2% в реальных испытаниях в 4 различных условиях, превосходя результат π_{0.5} в 39.2%. Наши результаты демонстрируют, что процедурная генерация сред в сочетании с разнообразными моделями шарнирных объектов позволяет создавать надежные политики манипулирования, которые успешно обобщаются на реальный мир. Технический блог: https://allenai.org/blog/molmobot-robot-manipulation
English
A prevailing view in robot learning is that simulation alone is not enough; effective sim-to-real transfer is widely believed to require at least some real-world data collection or task-specific fine-tuning to bridge the gap between simulated and physical environments. We challenge that assumption. With sufficiently large-scale and diverse simulated synthetic training data, we show that zero-shot transfer to the real world is not only possible, but effective for both static and mobile manipulation. We introduce MolmoBot-Engine, a fully open-source pipeline for procedural data generation across robots, tasks, and diverse simulated environments in MolmoSpaces. With it, we release MolmoBot-Data, a dataset of 1.8 million expert trajectories for articulated object manipulation and pick-and-place tasks. We train three policy classes: MolmoBot, a Molmo2-based multi-frame vision-language model with a flow-matching action head; MolmoBot-Pi0, which replicates the π_0 architecture to enable direct comparison; and MolmoBot-SPOC, a lightweight policy suitable for edge deployment and amenable to RL fine-tuning. We evaluate on two robotic platforms: the Franka FR3 for tabletop manipulation tasks and the Rainbow Robotics RB-Y1 mobile manipulator for door opening, drawer manipulation, cabinet interaction, and mobile pick-and-place. Without any real-world fine-tuning, our policies achieve zero-shot transfer to unseen objects and environments. On tabletop pick-and-place, MolmoBot achieves a success rate of 79.2% in real world evaluations across 4 settings, outperforming π_{0.5} at 39.2%. Our results demonstrate that procedural environment generation combined with diverse articulated assets can produce robust manipulation policies that generalize broadly to the real world. Technical Blog: https://allenai.org/blog/molmobot-robot-manipulation