ChatPaper.aiChatPaper

MolmoSpaces: Un Ecosistema Abierto a Gran Escala para Navegación y Manipulación Robótica

MolmoSpaces: A Large-Scale Open Ecosystem for Robot Navigation and Manipulation

February 11, 2026
Autores: Yejin Kim, Wilbert Pumacay, Omar Rayyan, Max Argus, Winson Han, Eli VanderBilt, Jordi Salvador, Abhay Deshpande, Rose Hendrix, Snehal Jauhri, Shuo Liu, Nur Muhammad Mahi Shafiullah, Maya Guru, Ainaz Eftekhar, Karen Farley, Donovan Clay, Jiafei Duan, Arjun Guru, Piper Wolters, Alvaro Herrasti, Ying-Chun Lee, Georgia Chalvatzaki, Yuchen Cui, Ali Farhadi, Dieter Fox, Ranjay Krishna
cs.AI

Resumen

El despliegue de robots a gran escala exige robustez frente a la larga cola de situaciones cotidianas. Las innumerables variaciones en la disposición de la escena, la geometría de los objetos y las especificaciones de las tareas que caracterizan los entornos reales son inmensas y están infrarrepresentadas en los puntos de referencia robóticos existentes. Medir este nivel de generalización requiere una infraestructura con una escala y diversidad que la evaluación física por sí sola no puede proporcionar. Presentamos MolmoSpaces, un ecosistema completamente abierto para apoyar la evaluación comparativa a gran escala de políticas de control robóticas. MolmoSpaces consta de más de 230.000 entornos interiores diversos, que van desde escenas domésticas creadas manualmente hasta casas con múltiples habitaciones generadas proceduralmente, pobladas con 130.000 activos de objetos ricamente anotados, incluyendo 48.000 objetos manipulables con 42 millones de presas estables. Crucialmente, estos entornos son independientes del simulador, soportando opciones populares como MuJoCo, Isaac y ManiSkill. El ecosistema soporta todo el espectro de tareas corporizadas: manipulación estática y móvil, navegación y tareas de largo horizonte en múltiples habitaciones que requieren percepción, planificación e interacción coordinadas en entornos interiores completos. También diseñamos MolmoSpaces-Bench, un conjunto de evaluación comparativa de 8 tareas en las que los robots interactúan con nuestras diversas escenas y objetos ricamente anotados. Nuestros experimentos muestran que MolmoSpaces-Bench exhibe una fuerte correlación sim-a-real (R = 0,96, ρ = 0,98), confirman que políticas más nuevas y robustas de zero-shot superan a versiones anteriores en nuestras pruebas, e identifican sensibilidades clave a la redacción de instrucciones, las posiciones articulares iniciales y la oclusión de la cámara. A través de MolmoSpaces y sus activos y herramientas de código abierto, proporcionamos una base para la generación escalable de datos, el entrenamiento de políticas y la creación de puntos de referencia para la investigación en aprendizaje robótico.
English
Deploying robots at scale demands robustness to the long tail of everyday situations. The countless variations in scene layout, object geometry, and task specifications that characterize real environments are vast and underrepresented in existing robot benchmarks. Measuring this level of generalization requires infrastructure at a scale and diversity that physical evaluation alone cannot provide. We introduce MolmoSpaces, a fully open ecosystem to support large-scale benchmarking of robot policies. MolmoSpaces consists of over 230k diverse indoor environments, ranging from handcrafted household scenes to procedurally generated multiroom houses, populated with 130k richly annotated object assets, including 48k manipulable objects with 42M stable grasps. Crucially, these environments are simulator-agnostic, supporting popular options such as MuJoCo, Isaac, and ManiSkill. The ecosystem supports the full spectrum of embodied tasks: static and mobile manipulation, navigation, and multiroom long-horizon tasks requiring coordinated perception, planning, and interaction across entire indoor environments. We also design MolmoSpaces-Bench, a benchmark suite of 8 tasks in which robots interact with our diverse scenes and richly annotated objects. Our experiments show MolmoSpaces-Bench exhibits strong sim-to-real correlation (R = 0.96, ho = 0.98), confirm newer and stronger zero-shot policies outperform earlier versions in our benchmarks, and identify key sensitivities to prompt phrasing, initial joint positions, and camera occlusion. Through MolmoSpaces and its open-source assets and tooling, we provide a foundation for scalable data generation, policy training, and benchmark creation for robot learning research.
PDF40February 14, 2026