ChatPaper.aiChatPaper

MomaGraph: Zustandsbewusste einheitliche Szenengraphen mit Vision-Sprache-Modell für verkörpertes Aufgabenplanen

MomaGraph: State-Aware Unified Scene Graphs with Vision-Language Model for Embodied Task Planning

December 18, 2025
papers.authors: Yuanchen Ju, Yongyuan Liang, Yen-Jen Wang, Nandiraju Gireesh, Yuanliang Ju, Seungjae Lee, Qiao Gu, Elvis Hsieh, Furong Huang, Koushil Sreenath
cs.AI

papers.abstract

Mobile Manipulatoren in Haushalten müssen sowohl navigieren als auch manipulieren können. Dies erfordert eine kompakte, semantisch reiche Szenendarstellung, die erfasst, wo sich Objekte befinden, wie sie funktionieren und welche Teile aktivierbar sind. Szenengraphen sind eine naheliegende Wahl, doch bisherige Arbeiten trennen oft räumliche und funktionale Beziehungen, behandeln Szenen als statische Momentaufnahmen ohne Objektzustände oder zeitliche Aktualisierungen und übersehen Informationen, die für die Erfüllung der aktuellen Aufgabe am relevantesten sind. Um diese Einschränkungen zu adressieren, führen wir MomaGraph ein, eine vereinheitlichte Szenendarstellung für embodied Agents, die räumlich-funktionale Beziehungen und teilbezogene interaktive Elemente integriert. Die Weiterentwicklung einer solchen Darstellung erfordert jedoch sowohl geeignete Daten als auch rigorose Evaluation, die bisher weitgehend fehlten. Daher präsentieren wir MomaGraph-Scenes, den ersten groß angelegten Datensatz mit umfangreich annotierten, aufgabenorientierten Szenengraphen in Haushaltsumgebungen, sowie MomaGraph-Bench, eine systematische Testsuite, die sechs Reasoning-Fähigkeiten von High-Level-Planung bis hin zu feinkörniger Szenenanalyse abdeckt. Auf dieser Grundlage entwickeln wir weiterhin MomaGraph-R1, ein 7B-Vision-Sprach-Modell, das mit Reinforcement Learning auf MomaGraph-Scenes trainiert wurde. MomaGraph-R1 sagt aufgabenorientierte Szenengraphen vorher und dient als Zero-Shot-Aufgabenplaner unter einem Graph-then-Plan-Framework. Umfangreiche Experimente zeigen, dass unser Modell state-of-the-art Ergebnisse unter Open-Source-Modellen erzielt und eine Genauigkeit von 71,6 % auf dem Benchmark erreicht (+11,4 % gegenüber der besten Baseline), dabei generalisiert es über öffentliche Benchmarks hinweg und überträgt effektiv auf Echt-Roboter-Experimente.
English
Mobile manipulators in households must both navigate and manipulate. This requires a compact, semantically rich scene representation that captures where objects are, how they function, and which parts are actionable. Scene graphs are a natural choice, yet prior work often separates spatial and functional relations, treats scenes as static snapshots without object states or temporal updates, and overlooks information most relevant for accomplishing the current task. To address these limitations, we introduce MomaGraph, a unified scene representation for embodied agents that integrates spatial-functional relationships and part-level interactive elements. However, advancing such a representation requires both suitable data and rigorous evaluation, which have been largely missing. We thus contribute MomaGraph-Scenes, the first large-scale dataset of richly annotated, task-driven scene graphs in household environments, along with MomaGraph-Bench, a systematic evaluation suite spanning six reasoning capabilities from high-level planning to fine-grained scene understanding. Built upon this foundation, we further develop MomaGraph-R1, a 7B vision-language model trained with reinforcement learning on MomaGraph-Scenes. MomaGraph-R1 predicts task-oriented scene graphs and serves as a zero-shot task planner under a Graph-then-Plan framework. Extensive experiments demonstrate that our model achieves state-of-the-art results among open-source models, reaching 71.6% accuracy on the benchmark (+11.4% over the best baseline), while generalizing across public benchmarks and transferring effectively to real-robot experiments.
PDF12December 20, 2025