ChatPaper.aiChatPaper

MomaGraph: Grafos de Escena Unificados con Conciencia del Estado mediante un Modelo de Visión-Lenguaje para la Planificación de Tareas Embebidas

MomaGraph: State-Aware Unified Scene Graphs with Vision-Language Model for Embodied Task Planning

December 18, 2025
Autores: Yuanchen Ju, Yongyuan Liang, Yen-Jen Wang, Nandiraju Gireesh, Yuanliang Ju, Seungjae Lee, Qiao Gu, Elvis Hsieh, Furong Huang, Koushil Sreenath
cs.AI

Resumen

Los manipuladores móviles en entornos domésticos deben ser capaces tanto de navegar como de manipular. Esto requiere una representación de escena compacta y semánticamente rica que capture la ubicación de los objetos, su funcionalidad y qué partes son accionables. Los grafos de escena son una opción natural; sin embargo, trabajos previos a menudo separan las relaciones espaciales de las funcionales, tratan las escenas como instantáneas estáticas sin estados de los objetos ni actualizaciones temporales, y pasan por alto la información más relevante para realizar la tarea actual. Para abordar estas limitaciones, presentamos MomaGraph, una representación de escena unificada para agentes corporizados que integra relaciones espacial-funcionales y elementos interactivos a nivel de piezas. No obstante, avanzar en dicha representación requiere tanto datos adecuados como una evaluación rigurosa, aspectos que han estado mayormente ausentes. Por ello, contribuimos con MomaGraph-Scenes, el primer conjunto de datos a gran escala de grafos de escena ricamente anotados y orientados a tareas en entornos domésticos, junto con MomaGraph-Bench, un conjunto de evaluación sistemática que abarca seis capacidades de razonamiento, desde la planificación de alto nivel hasta la comprensión detallada de la escena. Sobre esta base, desarrollamos además MomaGraph-R1, un modelo de visión y lenguaje de 7B entrenado con aprendizaje por refuerzo en MomaGraph-Scenes. MomaGraph-R1 predice grafos de escena orientados a tareas y funciona como un planificador de tareas de cero disparos bajo un marco de trabajo Grafo-luego-Planificar. Experimentos exhaustivos demuestran que nuestro modelo logra resultados de vanguardia entre los modelos de código abierto, alcanzando un 71.6% de precisión en la evaluación (+11.4% sobre el mejor baseline), a la vez que generaliza en benchmarks públicos y se transfiere eficazmente a experimentos con robots reales.
English
Mobile manipulators in households must both navigate and manipulate. This requires a compact, semantically rich scene representation that captures where objects are, how they function, and which parts are actionable. Scene graphs are a natural choice, yet prior work often separates spatial and functional relations, treats scenes as static snapshots without object states or temporal updates, and overlooks information most relevant for accomplishing the current task. To address these limitations, we introduce MomaGraph, a unified scene representation for embodied agents that integrates spatial-functional relationships and part-level interactive elements. However, advancing such a representation requires both suitable data and rigorous evaluation, which have been largely missing. We thus contribute MomaGraph-Scenes, the first large-scale dataset of richly annotated, task-driven scene graphs in household environments, along with MomaGraph-Bench, a systematic evaluation suite spanning six reasoning capabilities from high-level planning to fine-grained scene understanding. Built upon this foundation, we further develop MomaGraph-R1, a 7B vision-language model trained with reinforcement learning on MomaGraph-Scenes. MomaGraph-R1 predicts task-oriented scene graphs and serves as a zero-shot task planner under a Graph-then-Plan framework. Extensive experiments demonstrate that our model achieves state-of-the-art results among open-source models, reaching 71.6% accuracy on the benchmark (+11.4% over the best baseline), while generalizing across public benchmarks and transferring effectively to real-robot experiments.
PDF12December 20, 2025