ChatPaper.aiChatPaper

MomaGraph: Grafi della Scena Unificati con Consapevolezza dello Stato tramite Modelli Visione-Linguaggio per la Pianificazione di Compiti Embodied

MomaGraph: State-Aware Unified Scene Graphs with Vision-Language Model for Embodied Task Planning

December 18, 2025
Autori: Yuanchen Ju, Yongyuan Liang, Yen-Jen Wang, Nandiraju Gireesh, Yuanliang Ju, Seungjae Lee, Qiao Gu, Elvis Hsieh, Furong Huang, Koushil Sreenath
cs.AI

Abstract

I manipolatori mobili in ambito domestico devono sia navigare che manipolare oggetti. Ciò richiede una rappresentazione della scena compatta e semanticamente ricca, che catturi la posizione degli oggetti, la loro funzione e quali parti siano azionabili. I scene graph sono una scelta naturale, eppure i lavori precedenti spesso separano le relazioni spaziali da quelle funzionali, trattano le scene come istantanee statiche senza stati degli oggetti o aggiornamenti temporali, e trascurano le informazioni più rilevanti per portare a termine il compito corrente. Per affrontare queste limitazioni, introduciamo MomaGraph, una rappresentazione di scena unificata per agenti embodied che integra relazioni spaziali-funzionali ed elementi interattivi a livello di parti. Tuttavia, progredire con una tale rappresentazione richiede sia dati adeguati che una valutazione rigorosa, elementi largamente assenti. Contribuiamo quindi con MomaGraph-Scenes, il primo dataset su larga scala di scene graph riccamente annotati e guidati dal compito in ambienti domestici, insieme a MomaGraph-Bench, una suite di valutazione sistematica che abbraccia sei capacità di ragionamento, dalla pianificazione di alto livello alla comprensione fine della scena. Basandoci su queste fondamenta, sviluppiamo ulteriormente MomaGraph-R1, un modello visione-linguaggio da 7B addestrato con apprendimento per rinforzo su MomaGraph-Scenes. MomaGraph-R1 predice scene graph orientati al compito e funge da pianificatore di compiti zero-shot all'interno di un framework "Graph-then-Plan". Esperimenti estensivi dimostrano che il nostro modello raggiunge risultati allo stato dell'arte tra i modelli open-source, toccando il 71.6% di accuratezza sul benchmark (+11.4% rispetto al miglior baseline), generalizzando su benchmark pubblici e trasferendosi efficacemente a esperimenti con robot reali.
English
Mobile manipulators in households must both navigate and manipulate. This requires a compact, semantically rich scene representation that captures where objects are, how they function, and which parts are actionable. Scene graphs are a natural choice, yet prior work often separates spatial and functional relations, treats scenes as static snapshots without object states or temporal updates, and overlooks information most relevant for accomplishing the current task. To address these limitations, we introduce MomaGraph, a unified scene representation for embodied agents that integrates spatial-functional relationships and part-level interactive elements. However, advancing such a representation requires both suitable data and rigorous evaluation, which have been largely missing. We thus contribute MomaGraph-Scenes, the first large-scale dataset of richly annotated, task-driven scene graphs in household environments, along with MomaGraph-Bench, a systematic evaluation suite spanning six reasoning capabilities from high-level planning to fine-grained scene understanding. Built upon this foundation, we further develop MomaGraph-R1, a 7B vision-language model trained with reinforcement learning on MomaGraph-Scenes. MomaGraph-R1 predicts task-oriented scene graphs and serves as a zero-shot task planner under a Graph-then-Plan framework. Extensive experiments demonstrate that our model achieves state-of-the-art results among open-source models, reaching 71.6% accuracy on the benchmark (+11.4% over the best baseline), while generalizing across public benchmarks and transferring effectively to real-robot experiments.
PDF12December 21, 2025