ChatPaper.aiChatPaper

MolmoSpaces: Eine groß angelegte, offene Ökosystemplattform für Roboternavigation und -manipulation

MolmoSpaces: A Large-Scale Open Ecosystem for Robot Navigation and Manipulation

February 11, 2026
papers.authors: Yejin Kim, Wilbert Pumacay, Omar Rayyan, Max Argus, Winson Han, Eli VanderBilt, Jordi Salvador, Abhay Deshpande, Rose Hendrix, Snehal Jauhri, Shuo Liu, Nur Muhammad Mahi Shafiullah, Maya Guru, Ainaz Eftekhar, Karen Farley, Donovan Clay, Jiafei Duan, Arjun Guru, Piper Wolters, Alvaro Herrasti, Ying-Chun Lee, Georgia Chalvatzaki, Yuchen Cui, Ali Farhadi, Dieter Fox, Ranjay Krishna
cs.AI

papers.abstract

Der großflächige Einsatz von Robotern erfordert Robustheit gegenüber dem langen Schwanz alltäglicher Situationen. Die unzähligen Variationen in der Szenenanordnung, Objektgeometrie und Aufgabenstellung, die reale Umgebungen kennzeichnen, sind immens und in bestehenden Robotik-Benchmarks unterrepräsentiert. Die Messung dieses Generalisierungsniveaus erfordert eine Infrastruktur in einem Umfang und einer Vielfalt, die allein durch physische Evaluation nicht bereitgestellt werden kann. Wir stellen MolmoSpaces vor, ein vollständig offenes Ökosystem zur Unterstützung von großangelegten Benchmarking von Robotik-Policies. MolmoSpaces besteht aus über 230.000 vielfältigen Innenraumumgebungen, die von handgefertigten Haushaltsszenen bis hin zu prozedural generierten Mehrraumhäusern reichen, bevölkert mit 130.000 umfangreich annotierten Objekt-Assets, darunter 48.000 manipulierbare Objekte mit 42 Millionen stabilen Greifpositionen. Entscheidend ist, dass diese Umgebungen simulationsunabhängig sind und gängige Optionen wie MuJoCo, Isaac und ManiSkill unterstützen. Das Ökosystem unterstützt das gesamte Spektrum verkörperter Aufgaben: statische und mobile Manipulation, Navigation sowie langfristige Mehrraumaufgaben, die koordinierte Wahrnehmung, Planung und Interaktion über gesamte Innenraumumgebungen hinweg erfordern. Wir entwerfen zudem MolmoSpaces-Bench, eine Benchmark-Suite mit 8 Aufgaben, in denen Roboter mit unseren vielfältigen Szenen und annotierten Objekten interagieren. Unsere Experimente zeigen, dass MolmoSpaces-Bench eine starke Sim-to-Real-Korrelation aufweist (R = 0,96, ρ = 0,98), bestätigen, dass neuere und stärkere Zero-Shot-Policies in unseren Benchmarks frühere Versionen übertreffen, und identifizieren zentrale Sensitivitäten gegenüber Prompt-Formulierung, anfänglichen Gelenkpositionen und Kameraverschattung. Durch MolmoSpaces und seine Open-Source-Assets und -Werkzeuge bieten wir eine Grundlage für skalierbare Datengenerierung, Policy-Training und Benchmark-Erstellung für die Robotik-Lernforschung.
English
Deploying robots at scale demands robustness to the long tail of everyday situations. The countless variations in scene layout, object geometry, and task specifications that characterize real environments are vast and underrepresented in existing robot benchmarks. Measuring this level of generalization requires infrastructure at a scale and diversity that physical evaluation alone cannot provide. We introduce MolmoSpaces, a fully open ecosystem to support large-scale benchmarking of robot policies. MolmoSpaces consists of over 230k diverse indoor environments, ranging from handcrafted household scenes to procedurally generated multiroom houses, populated with 130k richly annotated object assets, including 48k manipulable objects with 42M stable grasps. Crucially, these environments are simulator-agnostic, supporting popular options such as MuJoCo, Isaac, and ManiSkill. The ecosystem supports the full spectrum of embodied tasks: static and mobile manipulation, navigation, and multiroom long-horizon tasks requiring coordinated perception, planning, and interaction across entire indoor environments. We also design MolmoSpaces-Bench, a benchmark suite of 8 tasks in which robots interact with our diverse scenes and richly annotated objects. Our experiments show MolmoSpaces-Bench exhibits strong sim-to-real correlation (R = 0.96, ho = 0.98), confirm newer and stronger zero-shot policies outperform earlier versions in our benchmarks, and identify key sensitivities to prompt phrasing, initial joint positions, and camera occlusion. Through MolmoSpaces and its open-source assets and tooling, we provide a foundation for scalable data generation, policy training, and benchmark creation for robot learning research.
PDF40February 14, 2026