ChatPaper.aiChatPaper

MolmoSpaces: 로봇 내비게이션 및 매니퓰레이션을 위한 대규모 오픈 생태계

MolmoSpaces: A Large-Scale Open Ecosystem for Robot Navigation and Manipulation

February 11, 2026
저자: Yejin Kim, Wilbert Pumacay, Omar Rayyan, Max Argus, Winson Han, Eli VanderBilt, Jordi Salvador, Abhay Deshpande, Rose Hendrix, Snehal Jauhri, Shuo Liu, Nur Muhammad Mahi Shafiullah, Maya Guru, Ainaz Eftekhar, Karen Farley, Donovan Clay, Jiafei Duan, Arjun Guru, Piper Wolters, Alvaro Herrasti, Ying-Chun Lee, Georgia Chalvatzaki, Yuchen Cui, Ali Farhadi, Dieter Fox, Ranjay Krishna
cs.AI

초록

로봇의 대규모 배포는 일상적인 상황의 긴 꼬리(long tail)에 대한 강건성을 요구합니다. 실제 환경을 특징짓는 장면 배치, 객체 기하학, 작업 명세의 무수한 변형은 기존 로봇 벤치마크에서 충분히 다루어지지 않는 방대한 영역입니다. 이러한 수준의 일반화 성능을 측정하기 위해서는 물리적 평가만으로는 제공할 수 없는 규모와 다양성을 갖춘 인프라가 필요합니다. 본 논문은 로봇 정책의 대규모 벤치마킹을 지원하는 완전 오픈 생태계인 MolmoSpaces를 소개합니다. MolmoSpaces는 정성적으로 제작된 가정 내 장면부터 절차적 생성(procedurally generated) 다중 공간 주택에 이르기까지 23만 개 이상의 다양한 실내 환경으로 구성되며, 13만 개의 풍부한 주석이 달린 객체 자산(48,000개의 조작 가능 객체와 4,200만 개의 안정적 그랩(grasp) 포함)으로 채워져 있습니다. 중요한 것은 이러한 환경이 시뮬레이터에 독립적(simulator-agnostic)이어서 MuJoCo, Isaac, ManiSkill과 같은 널리 사용되는 옵션들을 지원한다는 점입니다. 본 생태계는 정적 및 이동 조작, 탐색, 그리고 전체 실내 환경에 걸친 조율된 인식, 계획, 상호작용을 요구하는 다중 공간 장기 과제(long-horizon tasks)에 이르는 전체 구현형 임무(embodied tasks) 스펙트럼을 지원합니다. 또한 로봇이 우리의 다양한 장면과 풍부한 주석 객체와 상호작용하는 8가지 과제로 구성된 벤치마크 제품군인 MolmoSpaces-Bench를 설계했습니다. 우리의 실험 결과, MolmoSpaces-Bench는 강력한 시뮬레이션-현실 간 상관관계(R = 0.96, ρ = 0.98)를 보여주며, 우리의 벤치마크에서 더 새롭고 강력한 제로샷(zero-shot) 정책들이 이전 버전들을 능가함을 확인하고, 프롬프트 구문, 초기 관절 위치, 카메라 폐색(occlusion)에 대한 주요 민감도를 규명합니다. MolmoSpaces와 그 오픈소스 자산 및 도구를 통해 우리는 로봇 학습 연구를 위한 확장 가능한 데이터 생성, 정책 훈련 및 벤치마크 생성의 기반을 마련합니다.
English
Deploying robots at scale demands robustness to the long tail of everyday situations. The countless variations in scene layout, object geometry, and task specifications that characterize real environments are vast and underrepresented in existing robot benchmarks. Measuring this level of generalization requires infrastructure at a scale and diversity that physical evaluation alone cannot provide. We introduce MolmoSpaces, a fully open ecosystem to support large-scale benchmarking of robot policies. MolmoSpaces consists of over 230k diverse indoor environments, ranging from handcrafted household scenes to procedurally generated multiroom houses, populated with 130k richly annotated object assets, including 48k manipulable objects with 42M stable grasps. Crucially, these environments are simulator-agnostic, supporting popular options such as MuJoCo, Isaac, and ManiSkill. The ecosystem supports the full spectrum of embodied tasks: static and mobile manipulation, navigation, and multiroom long-horizon tasks requiring coordinated perception, planning, and interaction across entire indoor environments. We also design MolmoSpaces-Bench, a benchmark suite of 8 tasks in which robots interact with our diverse scenes and richly annotated objects. Our experiments show MolmoSpaces-Bench exhibits strong sim-to-real correlation (R = 0.96, ho = 0.98), confirm newer and stronger zero-shot policies outperform earlier versions in our benchmarks, and identify key sensitivities to prompt phrasing, initial joint positions, and camera occlusion. Through MolmoSpaces and its open-source assets and tooling, we provide a foundation for scalable data generation, policy training, and benchmark creation for robot learning research.
PDF40February 14, 2026