ChatPaper.aiChatPaper

MolmoSpaces: Крупномасштабная открытая экосистема для навигации и манипулирования роботов

MolmoSpaces: A Large-Scale Open Ecosystem for Robot Navigation and Manipulation

February 11, 2026
Авторы: Yejin Kim, Wilbert Pumacay, Omar Rayyan, Max Argus, Winson Han, Eli VanderBilt, Jordi Salvador, Abhay Deshpande, Rose Hendrix, Snehal Jauhri, Shuo Liu, Nur Muhammad Mahi Shafiullah, Maya Guru, Ainaz Eftekhar, Karen Farley, Donovan Clay, Jiafei Duan, Arjun Guru, Piper Wolters, Alvaro Herrasti, Ying-Chun Lee, Georgia Chalvatzaki, Yuchen Cui, Ali Farhadi, Dieter Fox, Ranjay Krishna
cs.AI

Аннотация

Массовое развертывание роботов требует устойчивости к длинному хвосту повседневных ситуаций. Бесчисленные вариации в планировке сцены, геометрии объектов и постановке задач, характерные для реальных сред, чрезвычайно велики и недостаточно представлены в существующих бенчмарках для роботов. Измерение такого уровня обобщения требует инфраструктуры такого масштаба и разнообразия, которые только физическая оценка обеспечить не может. Мы представляем MolmoSpaces — полностью открытую экосистему для поддержки крупномасштабного тестирования политик роботов. MolmoSpaces состоит из более чем 230 тысяч разнообразных помещений, от тщательно смоделированных домашних сцен до процедурно сгенерированных многокомнатных домов, населенных 130 тысячами богато аннотированных объектов, включая 48 тысяч манипулируемых объектов с 42 миллионами устойчивых захватов. Ключевым моментом является то, что эти среды независимы от симулятора и поддерживают популярные варианты, такие как MuJoCo, Isaac и ManiSkill. Экосистема поддерживает полный спектр воплощенных задач: статическое и мобильное манипулирование, навигацию и многокомнатные задачи долгосрочного планирования, требующие скоординированного восприятия, планирования и взаимодействия во всей внутренней среде. Мы также разработали MolmoSpaces-Bench — набор бенчмарков из 8 задач, в которых роботы взаимодействуют с нашими разнообразными сценами и богато аннотированными объектами. Наши эксперименты показывают, что MolmoSpaces-Bench демонстрирует сильную корреляцию "симуляция-реальность" (R = 0.96, ρ = 0.98), подтверждают, что новые и более мощные политики с нулевым смещением превосходят более ранние версии в наших тестах, и выявляют ключевые чувствительности к формулировке промптов, начальным позициям сочленений и окклюзии камер. Благодаря MolmoSpaces, ее открытым исходным активам и инструментарию мы закладываем основу для масштабируемой генерации данных, обучения политик и создания бенчмарков для исследований в области обучения роботов.
English
Deploying robots at scale demands robustness to the long tail of everyday situations. The countless variations in scene layout, object geometry, and task specifications that characterize real environments are vast and underrepresented in existing robot benchmarks. Measuring this level of generalization requires infrastructure at a scale and diversity that physical evaluation alone cannot provide. We introduce MolmoSpaces, a fully open ecosystem to support large-scale benchmarking of robot policies. MolmoSpaces consists of over 230k diverse indoor environments, ranging from handcrafted household scenes to procedurally generated multiroom houses, populated with 130k richly annotated object assets, including 48k manipulable objects with 42M stable grasps. Crucially, these environments are simulator-agnostic, supporting popular options such as MuJoCo, Isaac, and ManiSkill. The ecosystem supports the full spectrum of embodied tasks: static and mobile manipulation, navigation, and multiroom long-horizon tasks requiring coordinated perception, planning, and interaction across entire indoor environments. We also design MolmoSpaces-Bench, a benchmark suite of 8 tasks in which robots interact with our diverse scenes and richly annotated objects. Our experiments show MolmoSpaces-Bench exhibits strong sim-to-real correlation (R = 0.96, ho = 0.98), confirm newer and stronger zero-shot policies outperform earlier versions in our benchmarks, and identify key sensitivities to prompt phrasing, initial joint positions, and camera occlusion. Through MolmoSpaces and its open-source assets and tooling, we provide a foundation for scalable data generation, policy training, and benchmark creation for robot learning research.
PDF40February 14, 2026