MomaGraph: Grafos de Cena Unificados com Consciência de Estado e Modelo de Visão e Linguagem para Planejamento de Tarefas Corporificadas

Resumo

Os manipuladores móveis em ambientes domésticos devem tanto navegar quanto manipular objetos. Isso exige uma representação de cena compacta e semanticamente rica que capture onde os objetos estão, como funcionam e quais partes são acionáveis. Os grafos de cena são uma escolha natural, mas trabalhos anteriores frequentemente separam relações espaciais e funcionais, tratam as cenas como instantâneos estáticos sem estados dos objetos ou atualizações temporais, e negligenciam informações mais relevantes para a realização da tarefa atual. Para superar essas limitações, introduzimos o MomaGraph, uma representação de cena unificada para agentes corporificados que integra relações espácio-funcionais e elementos interativos ao nível de componentes. No entanto, avançar tal representação requer dados adequados e avaliação rigorosa, que têm estado amplamente ausentes. Contribuímos, assim, com o MomaGraph-Scenes, o primeiro conjunto de dados em larga escala de grafos de cena ricamente anotados e orientados por tarefas em ambientes domésticos, juntamente com o MomaGraph-Bench, um conjunto de avaliação sistemática abrangendo seis capacidades de raciocínio, desde planeamento de alto nível até compreensão refinada da cena. Com base nessa fundação, desenvolvemos ainda o MomaGraph-R1, um modelo de visão e linguagem de 7B treinado com aprendizagem por reforço no MomaGraph-Scenes. O MomaGraph-R1 prevê grafos de cena orientados por tarefas e serve como planeador de tarefas de *zero-shot* sob uma arquitetura *Graph-then-Plan*. Experimentos extensivos demonstram que o nosso modelo alcança resultados de ponta entre modelos de código aberto, atingindo 71,6% de precisão no benchmark (+11,4% sobre a melhor baseline), enquanto generaliza em benchmarks públicos e transfere eficazmente para experiências com robôs reais.

English

Mobile manipulators in households must both navigate and manipulate. This requires a compact, semantically rich scene representation that captures where objects are, how they function, and which parts are actionable. Scene graphs are a natural choice, yet prior work often separates spatial and functional relations, treats scenes as static snapshots without object states or temporal updates, and overlooks information most relevant for accomplishing the current task. To address these limitations, we introduce MomaGraph, a unified scene representation for embodied agents that integrates spatial-functional relationships and part-level interactive elements. However, advancing such a representation requires both suitable data and rigorous evaluation, which have been largely missing. We thus contribute MomaGraph-Scenes, the first large-scale dataset of richly annotated, task-driven scene graphs in household environments, along with MomaGraph-Bench, a systematic evaluation suite spanning six reasoning capabilities from high-level planning to fine-grained scene understanding. Built upon this foundation, we further develop MomaGraph-R1, a 7B vision-language model trained with reinforcement learning on MomaGraph-Scenes. MomaGraph-R1 predicts task-oriented scene graphs and serves as a zero-shot task planner under a Graph-then-Plan framework. Extensive experiments demonstrate that our model achieves state-of-the-art results among open-source models, reaching 71.6% accuracy on the benchmark (+11.4% over the best baseline), while generalizing across public benchmarks and transferring effectively to real-robot experiments.

MomaGraph: Grafos de Cena Unificados com Consciência de Estado e Modelo de Visão e Linguagem para Planejamento de Tarefas Corporificadas

MomaGraph: State-Aware Unified Scene Graphs with Vision-Language Model for Embodied Task Planning

Resumo

Support