MolmoSpaces: Un ecosistema aperto su larga scala per la navigazione e la manipolazione robotica

Abstract

La distribuzione su larga scala di robot richiede robustezza rispetto alla lunga coda di situazioni quotidiane. Le innumerevoli variazioni nella disposizione della scena, nella geometria degli oggetti e nelle specifiche dei compiti che caratterizzano gli ambienti reali sono vaste e sottorappresentate nei benchmark robotici esistenti. Misurare questo livello di generalizzazione richiede un'infrastruttura con una scala e una diversità che la sola valutazione fisica non può fornire. Introduciamo MolmoSpaces, un ecosistema completamente aperto per supportare il benchmarking su larga scala delle policy robotiche. MolmoSpaces è composto da oltre 230.000 ambienti indoor diversificati, che spaziano da scene domestiche realizzate a mano a case multi-stanza generate proceduralmente, popolati da 130.000 asset di oggetti riccamente annotati, inclusi 48.000 oggetti manipolabili con 42 milioni di prese stabili. Fondamentalmente, questi ambienti sono indipendenti dal simulatore, supportando opzioni popolari come MuJoCo, Isaac e ManiSkill. L'ecosistema supporta l'intero spettro dei compiti embodied: manipolazione statica e mobile, navigazione e compiti a lungo orizzonte multi-stanza che richiedono una coordinazione tra percezione, pianificazione e interazione attraverso interi ambienti indoor. Progettiamo inoltre MolmoSpaces-Bench, una suite di benchmark di 8 compiti in cui i robot interagiscono con le nostre scene diversificate e gli oggetti riccamente annotati. I nostri esperimenti mostrano che MolmoSpaces-Bench presenta una forte correlazione sim-to-real (R = 0,96, ho = 0,98), confermano che policy zero-shot più recenti e potenti superano le versioni precedenti nei nostri benchmark e identificano sensibilità chiave alla formulazione dei prompt, alle posizioni iniziali dei giunti e all'occlusione della telecamera. Attraverso MolmoSpaces e i suoi asset e strumenti open-source, forniamo una base per la generazione scalabile di dati, l'addestramento delle policy e la creazione di benchmark per la ricerca sull'apprendimento robotico.

English

Deploying robots at scale demands robustness to the long tail of everyday situations. The countless variations in scene layout, object geometry, and task specifications that characterize real environments are vast and underrepresented in existing robot benchmarks. Measuring this level of generalization requires infrastructure at a scale and diversity that physical evaluation alone cannot provide. We introduce MolmoSpaces, a fully open ecosystem to support large-scale benchmarking of robot policies. MolmoSpaces consists of over 230k diverse indoor environments, ranging from handcrafted household scenes to procedurally generated multiroom houses, populated with 130k richly annotated object assets, including 48k manipulable objects with 42M stable grasps. Crucially, these environments are simulator-agnostic, supporting popular options such as MuJoCo, Isaac, and ManiSkill. The ecosystem supports the full spectrum of embodied tasks: static and mobile manipulation, navigation, and multiroom long-horizon tasks requiring coordinated perception, planning, and interaction across entire indoor environments. We also design MolmoSpaces-Bench, a benchmark suite of 8 tasks in which robots interact with our diverse scenes and richly annotated objects. Our experiments show MolmoSpaces-Bench exhibits strong sim-to-real correlation (R = 0.96, ho = 0.98), confirm newer and stronger zero-shot policies outperform earlier versions in our benchmarks, and identify key sensitivities to prompt phrasing, initial joint positions, and camera occlusion. Through MolmoSpaces and its open-source assets and tooling, we provide a foundation for scalable data generation, policy training, and benchmark creation for robot learning research.

MolmoSpaces: Un ecosistema aperto su larga scala per la navigazione e la manipolazione robotica

MolmoSpaces: A Large-Scale Open Ecosystem for Robot Navigation and Manipulation

Abstract

Support