MomaGraph : Graphes de scène unifiés avec conscience de l'état et modèle vision-langage pour la planification de tâches incarnées
MomaGraph: State-Aware Unified Scene Graphs with Vision-Language Model for Embodied Task Planning
December 18, 2025
papers.authors: Yuanchen Ju, Yongyuan Liang, Yen-Jen Wang, Nandiraju Gireesh, Yuanliang Ju, Seungjae Lee, Qiao Gu, Elvis Hsieh, Furong Huang, Koushil Sreenath
cs.AI
papers.abstract
Les manipulateurs mobiles domestiques doivent à la fois naviguer et manipuler. Cela nécessite une représentation de scène compacte et sémantiquement riche qui capture la localisation des objets, leur fonctionnalité et les parties actionnables. Les graphes de scène constituent un choix naturel, mais les travaux antérieurs séparent souvent les relations spatiales et fonctionnelles, traitent les scènes comme des instantanés statiques sans états d'objets ni mises à jour temporelles, et négligent les informations les plus pertinentes pour accomplir la tâche en cours. Pour résoudre ces limitations, nous présentons MomaGraph, une représentation de scène unifiée pour agents incarnés qui intègre les relations spatiales-fonctionnelles et les éléments interactifs au niveau des parties. Cependant, faire progresser une telle représentation nécessite à la fois des données appropriées et une évaluation rigoureuse, qui ont largement fait défaut. Nous contribuons donc MomaGraph-Scenes, la première base de données à grande échelle de graphes de scène riches en annotations et orientés tâche dans des environnements domestiques, ainsi que MomaGraph-Bench, une suite d'évaluation systématique couvrant six capacités de raisonnement allant de la planification de haut niveau à la compréhension fine de la scène. Sur cette base, nous développons ensuite MomaGraph-R1, un modèle vision-langage de 7B entraîné par apprentissage par renforcement sur MomaGraph-Scenes. MomaGraph-R1 prédit des graphes de scène orientés tâche et sert de planificateur de tâches zero-shot selon un cadre Graph-then-Plan. Des expériences approfondies démontrent que notre modèle atteint des résultats state-of-the-art parmi les modèles open-source, avec une précision de 71,6% sur le benchmark (+11,4% par rapport au meilleur baseline), tout en généralisant sur des benchmarks publics et en se transférant efficacement à des expériences sur robot réel.
English
Mobile manipulators in households must both navigate and manipulate. This requires a compact, semantically rich scene representation that captures where objects are, how they function, and which parts are actionable. Scene graphs are a natural choice, yet prior work often separates spatial and functional relations, treats scenes as static snapshots without object states or temporal updates, and overlooks information most relevant for accomplishing the current task. To address these limitations, we introduce MomaGraph, a unified scene representation for embodied agents that integrates spatial-functional relationships and part-level interactive elements. However, advancing such a representation requires both suitable data and rigorous evaluation, which have been largely missing. We thus contribute MomaGraph-Scenes, the first large-scale dataset of richly annotated, task-driven scene graphs in household environments, along with MomaGraph-Bench, a systematic evaluation suite spanning six reasoning capabilities from high-level planning to fine-grained scene understanding. Built upon this foundation, we further develop MomaGraph-R1, a 7B vision-language model trained with reinforcement learning on MomaGraph-Scenes. MomaGraph-R1 predicts task-oriented scene graphs and serves as a zero-shot task planner under a Graph-then-Plan framework. Extensive experiments demonstrate that our model achieves state-of-the-art results among open-source models, reaching 71.6% accuracy on the benchmark (+11.4% over the best baseline), while generalizing across public benchmarks and transferring effectively to real-robot experiments.