ChatPaper.aiChatPaper

MomaGraph: 具身タスク計画のためのビジョン言語モデルによる状態認識統合シーングラフ

MomaGraph: State-Aware Unified Scene Graphs with Vision-Language Model for Embodied Task Planning

December 18, 2025
著者: Yuanchen Ju, Yongyuan Liang, Yen-Jen Wang, Nandiraju Gireesh, Yuanliang Ju, Seungjae Lee, Qiao Gu, Elvis Hsieh, Furong Huang, Koushil Sreenath
cs.AI

要旨

家庭環境における移動マニピュレータは、ナビゲーションと操作の両方を実行する必要がある。これには、物体の位置や機能、操作可能な部分を捉えた、コンパクトで意味的に豊かなシーン表現が求められる。シーングラフは自然な選択肢であるが、従来の研究では空間的関係と機能的関係が分離されがちで、物体の状態や時間的更新を伴わない静的なスナップショットとしてシーンを扱い、現在のタスク達成に最も関連する情報を見落とす傾向がある。これらの課題に対処するため、我々は空間的・機能的関係と部品レベルの対話要素を統合した具身エージェント向け統一シーン表現「MomaGraph」を提案する。しかし、このような表現を発展させるには、適切なデータと厳格な評価基準が不可欠であり、これまでそれらはほぼ存在しなかった。そこで我々は、家庭環境におけるタスク指向の詳細注釈付きシーングラフの大規模データセット「MomaGraph-Scenes」と、高次計画から細粒度シーン理解まで6つの推論能力を網羅する系統的評価スイート「MomaGraph-Bench」を構築した。この基盤に立脚し、強化学習によりMomaGraph-Scenesで訓練した70億パラメータの視覚言語モデル「MomaGraph-R1」をさらに開発した。MomaGraph-R1はタスク指向シーングラフを予測し、Graph-then-Planフレームワーク下でゼロショットタスクプランナーとして機能する。大規模な実験により、本モデルがオープンソースモデルの中で最高性能を達成し、ベンチマークで71.6%の精度(既存最高ベースライン比+11.4%)を記録するとともに、公開ベンチマークへの汎化や実ロボット実験への効果的な転移が可能であることを実証した。
English
Mobile manipulators in households must both navigate and manipulate. This requires a compact, semantically rich scene representation that captures where objects are, how they function, and which parts are actionable. Scene graphs are a natural choice, yet prior work often separates spatial and functional relations, treats scenes as static snapshots without object states or temporal updates, and overlooks information most relevant for accomplishing the current task. To address these limitations, we introduce MomaGraph, a unified scene representation for embodied agents that integrates spatial-functional relationships and part-level interactive elements. However, advancing such a representation requires both suitable data and rigorous evaluation, which have been largely missing. We thus contribute MomaGraph-Scenes, the first large-scale dataset of richly annotated, task-driven scene graphs in household environments, along with MomaGraph-Bench, a systematic evaluation suite spanning six reasoning capabilities from high-level planning to fine-grained scene understanding. Built upon this foundation, we further develop MomaGraph-R1, a 7B vision-language model trained with reinforcement learning on MomaGraph-Scenes. MomaGraph-R1 predicts task-oriented scene graphs and serves as a zero-shot task planner under a Graph-then-Plan framework. Extensive experiments demonstrate that our model achieves state-of-the-art results among open-source models, reaching 71.6% accuracy on the benchmark (+11.4% over the best baseline), while generalizing across public benchmarks and transferring effectively to real-robot experiments.
PDF12December 20, 2025