MolmoSpaces: Um Ecossistema Aberto de Grande Escala para Navegação e Manipulação de Robôs

Resumo

A implantação de robôs em larga escala exige robustez para lidar com a longa cauda de situações do dia a dia. As inúmeras variações na disposição da cena, geometria dos objetos e especificações da tarefa que caracterizam ambientes reais são vastas e sub-representadas nos benchmarks existentes para robôs. Medir este nível de generalização requer uma infraestrutura com uma escala e diversidade que a avaliação física por si só não pode fornecer. Apresentamos o MolmoSpaces, um ecossistema totalmente aberto para suportar a avaliação em larga escala de políticas de robôs. O MolmoSpaces consiste em mais de 230 mil ambientes internos diversos, variando de cenas domésticas artesanais a casas com vários cômodos geradas proceduralmente, povoadas com 130 mil ativos de objetos ricamente anotados, incluindo 48 mil objetos manipuláveis com 42 milhões de pegas estáveis. Crucialmente, estes ambientes são independentes do simulador, suportando opções populares como MuJoCo, Isaac e ManiSkill. O ecossistema suporta todo o espectro de tarefas corporificadas: manipulação estática e móvel, navegação e tarefas de longo horizonte em múltiplos cômodos que exigem percepção, planeamento e interação coordenados em ambientes internos inteiros. Também concebemos o MolmoSpaces-Bench, um conjunto de benchmarks de 8 tarefas nas quais os robôs interagem com as nossas diversas cenas e objetos ricamente anotados. As nossas experiências mostram que o MolmoSpaces-Bench exibe uma forte correlação sim-para-real (R = 0,96, ρ = 0,98), confirmam que políticas zero-shot mais recentes e robustas superam versões anteriores nos nossos benchmarks e identificam sensibilidades-chave à formulação de instruções, posições articulares iniciais e oclusão da câmara. Através do MolmoSpaces e dos seus ativos e ferramentas de código aberto, fornecemos uma base para a geração escalável de dados, o treino de políticas e a criação de benchmarks para a investigação em aprendizagem de robôs.

English

Deploying robots at scale demands robustness to the long tail of everyday situations. The countless variations in scene layout, object geometry, and task specifications that characterize real environments are vast and underrepresented in existing robot benchmarks. Measuring this level of generalization requires infrastructure at a scale and diversity that physical evaluation alone cannot provide. We introduce MolmoSpaces, a fully open ecosystem to support large-scale benchmarking of robot policies. MolmoSpaces consists of over 230k diverse indoor environments, ranging from handcrafted household scenes to procedurally generated multiroom houses, populated with 130k richly annotated object assets, including 48k manipulable objects with 42M stable grasps. Crucially, these environments are simulator-agnostic, supporting popular options such as MuJoCo, Isaac, and ManiSkill. The ecosystem supports the full spectrum of embodied tasks: static and mobile manipulation, navigation, and multiroom long-horizon tasks requiring coordinated perception, planning, and interaction across entire indoor environments. We also design MolmoSpaces-Bench, a benchmark suite of 8 tasks in which robots interact with our diverse scenes and richly annotated objects. Our experiments show MolmoSpaces-Bench exhibits strong sim-to-real correlation (R = 0.96, ho = 0.98), confirm newer and stronger zero-shot policies outperform earlier versions in our benchmarks, and identify key sensitivities to prompt phrasing, initial joint positions, and camera occlusion. Through MolmoSpaces and its open-source assets and tooling, we provide a foundation for scalable data generation, policy training, and benchmark creation for robot learning research.

MolmoSpaces: Um Ecossistema Aberto de Grande Escala para Navegação e Manipulação de Robôs

MolmoSpaces: A Large-Scale Open Ecosystem for Robot Navigation and Manipulation

Resumo

Support