MolmoSpaces: Een grootschalig open ecosysteem voor robotnavigatie en -manipulatie
MolmoSpaces: A Large-Scale Open Ecosystem for Robot Navigation and Manipulation
February 11, 2026
Auteurs: Yejin Kim, Wilbert Pumacay, Omar Rayyan, Max Argus, Winson Han, Eli VanderBilt, Jordi Salvador, Abhay Deshpande, Rose Hendrix, Snehal Jauhri, Shuo Liu, Nur Muhammad Mahi Shafiullah, Maya Guru, Ainaz Eftekhar, Karen Farley, Donovan Clay, Jiafei Duan, Arjun Guru, Piper Wolters, Alvaro Herrasti, Ying-Chun Lee, Georgia Chalvatzaki, Yuchen Cui, Ali Farhadi, Dieter Fox, Ranjay Krishna
cs.AI
Samenvatting
Het op grote schaal inzetten van robots vereist robuustheid voor de lange staart van alledaagse situaties. De talloze variaties in scène-indeling, objectgeometrie en taakspecificaties die kenmerkend zijn voor echte omgevingen zijn enorm en ondervertegenwoordigd in bestaande robotbenchmarks. Het meten van dit generalisatieniveau vereist een infrastructuur op een schaal en met een diversiteit die fysieke evaluatie alleen niet kan bieden. Wij introduceren MolmoSpaces, een volledig open ecosysteem om grootschalige benchmarking van robotbeleid te ondersteunen. MolmoSpaces bestaat uit meer dan 230.000 diverse binnenomgevingen, variërend van handgemaakte huishoudelijke scènes tot procedureel gegenereerde huizen met meerdere kamers, bevolkt met 130.000 rijk geannoteerde objectassets, waaronder 48.000 manipuleerbare objecten met 42 miljoen stabiele grepen. Cruciaal is dat deze omgevingen simulator-onafhankelijk zijn en populaire opties zoals MuJoCo, Isaac en ManiSkill ondersteunen. Het ecosysteem ondersteunt het volledige spectrum van belichaamde taken: statische en mobiele manipulatie, navigatie en taken met een lange horizon in meerdere kamers die gecoördineerde perceptie, planning en interactie in gehele binnenomgevingen vereisen. Wij ontwerpen ook MolmoSpaces-Bench, een benchmarksuite van 8 taken waarin robots interageren met onze diverse scènes en rijk geannoteerde objecten. Onze experimenten tonen aan dat MolmoSpaces-Bench een sterke simulatie-naar-realiteit-correlatie vertoont (R = 0,96, ρ = 0,98), bevestigen dat nieuwere en sterkere zero-shot-beleidsregels eerdere versies in onze benchmarks overtreffen, en identificeren belangrijke gevoeligheden voor promptformulering, initiële gewrichtsposities en camerablokkering. Via MolmoSpaces en de bijbehorende open-source assets en tooling bieden wij een basis voor schaalbare datageneratie, beleidstraining en benchmarkcreatie voor robotleeronderzoek.
English
Deploying robots at scale demands robustness to the long tail of everyday situations. The countless variations in scene layout, object geometry, and task specifications that characterize real environments are vast and underrepresented in existing robot benchmarks. Measuring this level of generalization requires infrastructure at a scale and diversity that physical evaluation alone cannot provide. We introduce MolmoSpaces, a fully open ecosystem to support large-scale benchmarking of robot policies. MolmoSpaces consists of over 230k diverse indoor environments, ranging from handcrafted household scenes to procedurally generated multiroom houses, populated with 130k richly annotated object assets, including 48k manipulable objects with 42M stable grasps. Crucially, these environments are simulator-agnostic, supporting popular options such as MuJoCo, Isaac, and ManiSkill. The ecosystem supports the full spectrum of embodied tasks: static and mobile manipulation, navigation, and multiroom long-horizon tasks requiring coordinated perception, planning, and interaction across entire indoor environments. We also design MolmoSpaces-Bench, a benchmark suite of 8 tasks in which robots interact with our diverse scenes and richly annotated objects. Our experiments show MolmoSpaces-Bench exhibits strong sim-to-real correlation (R = 0.96, ho = 0.98), confirm newer and stronger zero-shot policies outperform earlier versions in our benchmarks, and identify key sensitivities to prompt phrasing, initial joint positions, and camera occlusion. Through MolmoSpaces and its open-source assets and tooling, we provide a foundation for scalable data generation, policy training, and benchmark creation for robot learning research.