MomaGraph: Единые графы сцен с учетом состояния на основе модели "визуальный язык" для планирования задач в воплощенных системах
MomaGraph: State-Aware Unified Scene Graphs with Vision-Language Model for Embodied Task Planning
December 18, 2025
Авторы: Yuanchen Ju, Yongyuan Liang, Yen-Jen Wang, Nandiraju Gireesh, Yuanliang Ju, Seungjae Lee, Qiao Gu, Elvis Hsieh, Furong Huang, Koushil Sreenath
cs.AI
Аннотация
Мобильные манипуляторы в домашних условиях должны одновременно перемещаться и выполнять манипуляции. Это требует компактного, семантически насыщенного представления сцены, которое фиксирует местоположение объектов, их функциональное назначение и то, какие части являются интерактивными. Сценарные графы представляются естественным выбором, однако предыдущие работы часто разделяют пространственные и функциональные отношения, рассматривают сцены как статичные снимки без учета состояний объектов или временных обновлений и упускают информацию, наиболее релевантную для выполнения текущей задачи. Для преодоления этих ограничений мы представляем MomaGraph — унифицированное представление сцены для воплощенных агентов, которое интегрирует пространственно-функциональные отношения и интерактивные элементы на уровне деталей. Однако развитие такого представления требует как подходящих данных, так и строгой оценки, которые до сих пор в значительной степени отсутствовали. Таким образом, мы представляем MomaGraph-Scenes — первый масштабный набор данных с богато аннотированными целеориентированными сценарными графами в домашних условиях, а также MomaGraph-Bench — системный набор для оценки, охватывающий шесть способностей к рассуждению: от высокоуровневого планирования до детального понимания сцены. На основе этого фундамента мы также разработали MomaGraph-R1, 7-миллиардную визуально-языковую модель, обученную с подкреплением на данных MomaGraph-Scenes. MomaGraph-R1 предсказывает целеориентированные сценарные графы и функционирует как планировщик задач с нулевым разгоном в рамках парадигмы «Сначала граф, затем план». Многочисленные эксперименты демонстрируют, что наша модель достигает передовых результатов среди открытых моделей, показывая точность 71.6% на бенчмарке (+11.4% по сравнению с лучшим базовым методом), одновременно обобщаясь на публичные бенчмарки и эффективно переносясь на эксперименты с реальными роботами.
English
Mobile manipulators in households must both navigate and manipulate. This requires a compact, semantically rich scene representation that captures where objects are, how they function, and which parts are actionable. Scene graphs are a natural choice, yet prior work often separates spatial and functional relations, treats scenes as static snapshots without object states or temporal updates, and overlooks information most relevant for accomplishing the current task. To address these limitations, we introduce MomaGraph, a unified scene representation for embodied agents that integrates spatial-functional relationships and part-level interactive elements. However, advancing such a representation requires both suitable data and rigorous evaluation, which have been largely missing. We thus contribute MomaGraph-Scenes, the first large-scale dataset of richly annotated, task-driven scene graphs in household environments, along with MomaGraph-Bench, a systematic evaluation suite spanning six reasoning capabilities from high-level planning to fine-grained scene understanding. Built upon this foundation, we further develop MomaGraph-R1, a 7B vision-language model trained with reinforcement learning on MomaGraph-Scenes. MomaGraph-R1 predicts task-oriented scene graphs and serves as a zero-shot task planner under a Graph-then-Plan framework. Extensive experiments demonstrate that our model achieves state-of-the-art results among open-source models, reaching 71.6% accuracy on the benchmark (+11.4% over the best baseline), while generalizing across public benchmarks and transferring effectively to real-robot experiments.