MolmoB0T: Крупномасштабное моделирование обеспечивает манипуляции без предварительного обучения

Аннотация

Преобладающая точка зрения в области обучения роботов гласит, что одной лишь симуляции недостаточно; широко распространено мнение, что для эффективного переноса из симуляции в реальность требуется как минимум некоторый сбор данных в реальном мире или специфичная для задачи донастройка, чтобы преодолеть разрыв между моделируемой и физической средой. Мы оспариваем это предположение. Показываем, что при наличии достаточно масштабных и разнообразных синтетических обучающих данных, сгенерированных в симуляции, передача в реальный мир без дообучения (zero-shot) не только возможна, но и эффективна как для статического, так и для мобильного манипулирования. Мы представляем MolmoBot-Engine — полностью открытый конвейер для процедурной генерации данных для различных роботов, задач и разнообразных моделируемых сред в MolmoSpaces. Вместе с ним мы выпускаем MolmoBot-Data, набор данных, содержащий 1.8 миллиона экспертных траекторий для манипулирования шарнирными объектами и задач pick-and-place. Мы обучаем три класса политик: MolmoBot — многокадровую визуально-языковую модель на основе Molmo2 с головой действий на основе flow matching; MolmoBot-Pi0, который воспроизводит архитектуру π_0 для обеспечения прямого сравнения; и MolmoBot-SPOC — облегченную политику, подходящую для развертывания на периферийных устройствах и пригодную для донастройки с подкреплением. Оценка проводится на двух роботизированных платформах: Franka FR3 для задач манипулирования на столе и мобильном манипуляторе Rainbow Robotics RB-Y1 для открывания дверей, манипулирования ящиками, взаимодействия с шкафами и мобильного pick-and-place. Без какой-либо донастройки в реальном мире наши политики достигают переноса без дообучения на незнакомые объекты и среды. В задаче pick-and-place на столе MolmoBot достигает показателя успеха 79.2% в реальных испытаниях в 4 различных условиях, превосходя результат π_{0.5} в 39.2%. Наши результаты демонстрируют, что процедурная генерация сред в сочетании с разнообразными моделями шарнирных объектов позволяет создавать надежные политики манипулирования, которые успешно обобщаются на реальный мир. Технический блог: https://allenai.org/blog/molmobot-robot-manipulation

English

A prevailing view in robot learning is that simulation alone is not enough; effective sim-to-real transfer is widely believed to require at least some real-world data collection or task-specific fine-tuning to bridge the gap between simulated and physical environments. We challenge that assumption. With sufficiently large-scale and diverse simulated synthetic training data, we show that zero-shot transfer to the real world is not only possible, but effective for both static and mobile manipulation. We introduce MolmoBot-Engine, a fully open-source pipeline for procedural data generation across robots, tasks, and diverse simulated environments in MolmoSpaces. With it, we release MolmoBot-Data, a dataset of 1.8 million expert trajectories for articulated object manipulation and pick-and-place tasks. We train three policy classes: MolmoBot, a Molmo2-based multi-frame vision-language model with a flow-matching action head; MolmoBot-Pi0, which replicates the π_0 architecture to enable direct comparison; and MolmoBot-SPOC, a lightweight policy suitable for edge deployment and amenable to RL fine-tuning. We evaluate on two robotic platforms: the Franka FR3 for tabletop manipulation tasks and the Rainbow Robotics RB-Y1 mobile manipulator for door opening, drawer manipulation, cabinet interaction, and mobile pick-and-place. Without any real-world fine-tuning, our policies achieve zero-shot transfer to unseen objects and environments. On tabletop pick-and-place, MolmoBot achieves a success rate of 79.2% in real world evaluations across 4 settings, outperforming π_{0.5} at 39.2%. Our results demonstrate that procedural environment generation combined with diverse articulated assets can produce robust manipulation policies that generalize broadly to the real world. Technical Blog: https://allenai.org/blog/molmobot-robot-manipulation

MolmoB0T: Крупномасштабное моделирование обеспечивает манипуляции без предварительного обучения

MolmoB0T: Large-Scale Simulation Enables Zero-Shot Manipulation

Аннотация

Support