ChatPaper.aiChatPaper

MolmoSpaces:ロボットナビゲーションとマニピュレーションのための大規模オープンエコシステム

MolmoSpaces: A Large-Scale Open Ecosystem for Robot Navigation and Manipulation

February 11, 2026
著者: Yejin Kim, Wilbert Pumacay, Omar Rayyan, Max Argus, Winson Han, Eli VanderBilt, Jordi Salvador, Abhay Deshpande, Rose Hendrix, Snehal Jauhri, Shuo Liu, Nur Muhammad Mahi Shafiullah, Maya Guru, Ainaz Eftekhar, Karen Farley, Donovan Clay, Jiafei Duan, Arjun Guru, Piper Wolters, Alvaro Herrasti, Ying-Chun Lee, Georgia Chalvatzaki, Yuchen Cui, Ali Farhadi, Dieter Fox, Ranjay Krishna
cs.AI

要旨

ロボットの大規模展開には、日常的に発生するロングテール状況への頑健性が求められる。実環境を特徴づける、シーン配置、オブジェクト形状、タスク仕様の無数のバリエーションは極めて多岐にわたり、既存のロボットベンチマークでは十分に表現されていない。このレベルの汎化性能を測定するには、物理的な評価だけでは提供できない規模と多様性を備えたインフラストラクチャが必要である。我々は、ロボットポリシーの大規模ベンチマークを支援する完全オープンなエコシステム「MolmoSpaces」を提案する。MolmoSpacesは、手作りの家庭内シーンから手続き的に生成された複数室の家まで、23万以上もの多様な屋内環境で構成され、13万の豊富な注釈付きオブジェクトアセット(うち4万8千の把持可能オブジェクトと4200万の安定把持を含む)が配置されている。決定的に、これらの環境はシミュレータに依存せず、MuJoCo、Isaac、ManiSkillなどの一般的なオプションをサポートする。本エコシステムは、静的な操作と移動を伴う操作、ナビゲーション、そして屋内環境全体にわたる知覚、計画、インタラクションの協調を必要とする複数室にわたる長期タスクなど、具身化タスクの全範囲をサポートする。さらに、ロボットが我々の多様なシーンと豊富な注釈付きオブジェクトと対話する8つのタスクからなるベンチマークスイート「MolmoSpaces-Bench」を設計した。実験により、MolmoSpaces-Benchは強力なシミュレーションtoリアル相関(R = 0.96, ρ = 0.98)を示し、新しいより強力なゼロショットポリシーが我々のベンチマークで以前のバージョンを上回ることを確認し、プロンプトの表現、初期関節位置、カメラオクルージョンへの重要な感度を特定した。MolmoSpacesとそのオープンソースのアセット及びツール群を通じて、ロボット学習研究のためのスケーラブルなデータ生成、ポリシー訓練、ベンチマーク作成の基盤を提供する。
English
Deploying robots at scale demands robustness to the long tail of everyday situations. The countless variations in scene layout, object geometry, and task specifications that characterize real environments are vast and underrepresented in existing robot benchmarks. Measuring this level of generalization requires infrastructure at a scale and diversity that physical evaluation alone cannot provide. We introduce MolmoSpaces, a fully open ecosystem to support large-scale benchmarking of robot policies. MolmoSpaces consists of over 230k diverse indoor environments, ranging from handcrafted household scenes to procedurally generated multiroom houses, populated with 130k richly annotated object assets, including 48k manipulable objects with 42M stable grasps. Crucially, these environments are simulator-agnostic, supporting popular options such as MuJoCo, Isaac, and ManiSkill. The ecosystem supports the full spectrum of embodied tasks: static and mobile manipulation, navigation, and multiroom long-horizon tasks requiring coordinated perception, planning, and interaction across entire indoor environments. We also design MolmoSpaces-Bench, a benchmark suite of 8 tasks in which robots interact with our diverse scenes and richly annotated objects. Our experiments show MolmoSpaces-Bench exhibits strong sim-to-real correlation (R = 0.96, ho = 0.98), confirm newer and stronger zero-shot policies outperform earlier versions in our benchmarks, and identify key sensitivities to prompt phrasing, initial joint positions, and camera occlusion. Through MolmoSpaces and its open-source assets and tooling, we provide a foundation for scalable data generation, policy training, and benchmark creation for robot learning research.
PDF40February 14, 2026