MomaGraph: Toestandsbewuste Geünificeerde Scènegrafen met Vision-Language Model voor Lichamelijke Taakplanning
MomaGraph: State-Aware Unified Scene Graphs with Vision-Language Model for Embodied Task Planning
December 18, 2025
Auteurs: Yuanchen Ju, Yongyuan Liang, Yen-Jen Wang, Nandiraju Gireesh, Yuanliang Ju, Seungjae Lee, Qiao Gu, Elvis Hsieh, Furong Huang, Koushil Sreenath
cs.AI
Samenvatting
Huishoudelijke mobiele manipulatoren moeten zowel navigeren als manipuleren. Dit vereist een compacte, semantisch rijke scenerepresentatie die vastlegt waar objecten zijn, hoe ze functioneren en welke onderdelen actieerbaar zijn. Scenegrafieken zijn een voor de hand liggende keuze, maar eerder werk scheidt vaak ruimtelijke en functionele relaties, behandelt scènes als statische momentopnamen zonder objecttoestanden of temporele updates, en negeert informatie die het meest relevant is voor het voltooien van de huidige taak. Om deze beperkingen aan te pakken, introduceren we MomaGraph, een verenigde scenerepresentatie voor belichaamde agents die ruimtelijk-functionele relaties en onderdeelniveau interactieve elementen integreert. Het verbeteren van een dergelijke representatie vereist echter zowel geschikte data als rigoureuze evaluatie, die grotendeels ontbraken. Daarom dragen we MomaGraph-Scenes bij, de eerste grootschalige dataset van rijk geannoteerde, taakgedreven scenegrafieken in huishoudelijke omgevingen, samen met MomaGraph-Bench, een systematische evaluatieset die zes redeneervaardigheden omvat van hoogwaardige planning tot gedetailleerd scenebegrip. Gebouwd op deze basis, ontwikkelen we verder MomaGraph-R1, een 7B vision-language model getraind met reinforcement learning op MomaGraph-Scenes. MomaGraph-R1 voorspelt taakgerichte scenegrafieken en fungeert als een zero-shot taakplanner onder een Graph-then-Plan raamwerk. Uitgebreide experimenten tonen aan dat ons model state-of-the-art resultaten behaalt onder open-source modellen, met een nauwkeurigheid van 71,6% op de benchmark (+11,4% boven de beste baseline), terwijl het generaliseert over publieke benchmarks en effectief transferleert naar echte robotexperimenten.
English
Mobile manipulators in households must both navigate and manipulate. This requires a compact, semantically rich scene representation that captures where objects are, how they function, and which parts are actionable. Scene graphs are a natural choice, yet prior work often separates spatial and functional relations, treats scenes as static snapshots without object states or temporal updates, and overlooks information most relevant for accomplishing the current task. To address these limitations, we introduce MomaGraph, a unified scene representation for embodied agents that integrates spatial-functional relationships and part-level interactive elements. However, advancing such a representation requires both suitable data and rigorous evaluation, which have been largely missing. We thus contribute MomaGraph-Scenes, the first large-scale dataset of richly annotated, task-driven scene graphs in household environments, along with MomaGraph-Bench, a systematic evaluation suite spanning six reasoning capabilities from high-level planning to fine-grained scene understanding. Built upon this foundation, we further develop MomaGraph-R1, a 7B vision-language model trained with reinforcement learning on MomaGraph-Scenes. MomaGraph-R1 predicts task-oriented scene graphs and serves as a zero-shot task planner under a Graph-then-Plan framework. Extensive experiments demonstrate that our model achieves state-of-the-art results among open-source models, reaching 71.6% accuracy on the benchmark (+11.4% over the best baseline), while generalizing across public benchmarks and transferring effectively to real-robot experiments.