ChatPaper.aiChatPaper

MolmoSpaces : Un écosystème ouvert à grande échelle pour la navigation et la manipulation robotiques

MolmoSpaces: A Large-Scale Open Ecosystem for Robot Navigation and Manipulation

February 11, 2026
papers.authors: Yejin Kim, Wilbert Pumacay, Omar Rayyan, Max Argus, Winson Han, Eli VanderBilt, Jordi Salvador, Abhay Deshpande, Rose Hendrix, Snehal Jauhri, Shuo Liu, Nur Muhammad Mahi Shafiullah, Maya Guru, Ainaz Eftekhar, Karen Farley, Donovan Clay, Jiafei Duan, Arjun Guru, Piper Wolters, Alvaro Herrasti, Ying-Chun Lee, Georgia Chalvatzaki, Yuchen Cui, Ali Farhadi, Dieter Fox, Ranjay Krishna
cs.AI

papers.abstract

Le déploiement de robots à grande échelle nécessite une robustesse face à la traîne des situations quotidiennes. Les innombrables variations dans l'agencement des scènes, la géométrie des objets et les spécifications des tâches qui caractérisent les environnements réels sont vastes et sous-représentées dans les benchmarks robotiques existants. Mesurer ce niveau de généralisation exige une infrastructure d'une ampleur et d'une diversité que l'évaluation physique seule ne peut fournir. Nous présentons MolmoSpaces, un écosystème entièrement ouvert pour soutenir l'évaluation à grande échelle des politiques de robots. MolmoSpaces comprend plus de 230 000 environnements intérieurs variés, allant de scènes domestiques conçues manuellement à des maisons multi-pièces générées de manière procédurale, peuplées de 130 000 ressources objets richement annotées, incluant 48 000 objets manipulables avec 42 millions de prises stables. Ces environnements sont surtout indépendants du simulateur, supportant des options populaires comme MuJoCo, Isaac et ManiSkill. L'écosystème prend en charge l'ensemble des tâches incarnées : manipulation statique et mobile, navigation, et tâches à long horizon multi-pièces nécessitant une coordination de la perception, de la planification et de l'interaction à travers des environnements intérieurs entiers. Nous concevons également MolmoSpaces-Bench, une suite de benchmarks de 8 tâches dans lesquelles les robots interagissent avec nos scènes diversifiées et nos objets richement annotés. Nos expériences montrent que MolmoSpaces-Bench présente une forte corrélation sim-to-real (R = 0,96, ρ = 0,98), confirment que des politiques zero-shot plus récentes et plus performantes surpassent les versions antérieures dans nos benchmarks, et identifient des sensibilités clés à la formulation des prompts, aux positions articulaires initiales et à l'occlusion des caméras. Grâce à MolmoSpaces et à ses ressources et outils open-source, nous fournissons une base pour la génération de données évolutive, l'entraînement des politiques et la création de benchmarks pour la recherche en apprentissage robotique.
English
Deploying robots at scale demands robustness to the long tail of everyday situations. The countless variations in scene layout, object geometry, and task specifications that characterize real environments are vast and underrepresented in existing robot benchmarks. Measuring this level of generalization requires infrastructure at a scale and diversity that physical evaluation alone cannot provide. We introduce MolmoSpaces, a fully open ecosystem to support large-scale benchmarking of robot policies. MolmoSpaces consists of over 230k diverse indoor environments, ranging from handcrafted household scenes to procedurally generated multiroom houses, populated with 130k richly annotated object assets, including 48k manipulable objects with 42M stable grasps. Crucially, these environments are simulator-agnostic, supporting popular options such as MuJoCo, Isaac, and ManiSkill. The ecosystem supports the full spectrum of embodied tasks: static and mobile manipulation, navigation, and multiroom long-horizon tasks requiring coordinated perception, planning, and interaction across entire indoor environments. We also design MolmoSpaces-Bench, a benchmark suite of 8 tasks in which robots interact with our diverse scenes and richly annotated objects. Our experiments show MolmoSpaces-Bench exhibits strong sim-to-real correlation (R = 0.96, ho = 0.98), confirm newer and stronger zero-shot policies outperform earlier versions in our benchmarks, and identify key sensitivities to prompt phrasing, initial joint positions, and camera occlusion. Through MolmoSpaces and its open-source assets and tooling, we provide a foundation for scalable data generation, policy training, and benchmark creation for robot learning research.
PDF40February 14, 2026