ChatPaper.aiChatPaper

MomaGraph: 체화된 작업 계획을 위한 비전-언어 모델 기반 상태 인식 통합 장면 그래프

MomaGraph: State-Aware Unified Scene Graphs with Vision-Language Model for Embodied Task Planning

December 18, 2025
저자: Yuanchen Ju, Yongyuan Liang, Yen-Jen Wang, Nandiraju Gireesh, Yuanliang Ju, Seungjae Lee, Qiao Gu, Elvis Hsieh, Furong Huang, Koushil Sreenath
cs.AI

초록

가정용 모바일 매니퓰레이터는 이동과 조작을 모두 수행해야 합니다. 이를 위해서는 객체의 위치, 기능적 특성, 조작 가능한 부위를 포착하는 컴팩트하면서도 의미론적으로 풍부한 장면 표현이 필요합니다. 장면 그래프는 자연스러운 선택지이나, 기존 연구에서는 공간적 관계와 기능적 관계를 분리하거나 객체 상태나 시간적 갱신이 없는 정적 스냅샷으로 장면을 처리하며, 현재 작업 수행에 가장 관련된 정보를 간과하는 경향이 있었습니다. 이러한 한계를 해결하기 위해 우리는 구현형 에이전트를 위한 공간-기능 관계와 부위 수준 상호작용 요소를 통합한 통합 장면 표현인 MomaGraph를 제안합니다. 그러나 이러한 표현의 발전에는 적절한 데이터와 엄격한 평가가 모두 필요하며, 이는 지금까지 크게 부족했습니다. 이에 우리는 가정 환경에서 풍부하게 주석 처리된 작업 중심 장면 그래프의 첫 번째 대규모 데이터셋인 MomaGraph-Scenes와 상위 수준 계획부터 세부 장면 이해에 이르는 6가지 추론 능력을 아우르는 체계적인 평가 도구인 MomaGraph-Bench를 공개합니다. 이 기반 위에 우리는 MomaGraph-Scenes로 강화 학습을 통해 훈련된 70억 개 파라미터 비전-언어 모델인 MomaGraph-R1을 추가 개발했습니다. MomaGraph-R1은 작업 지향적 장면 그래프를 예측하며 Graph-then-Plan 프레임워크 하에서 제로샷 작업 계획자 역할을 수행합니다. 광범위한 실험을 통해 우리 모델이 오픈소스 모델 중 최첨단 성능을 달성하여 벤치마크에서 71.6% 정확도(기존 최고 베이스라인 대비 +11.4% 향상)에 도달함과 동시에 공개 벤치마크에서 일반화 성능을 발휘하고 실제 로봇 실험으로 효과적으로 전이됨을 입증했습니다.
English
Mobile manipulators in households must both navigate and manipulate. This requires a compact, semantically rich scene representation that captures where objects are, how they function, and which parts are actionable. Scene graphs are a natural choice, yet prior work often separates spatial and functional relations, treats scenes as static snapshots without object states or temporal updates, and overlooks information most relevant for accomplishing the current task. To address these limitations, we introduce MomaGraph, a unified scene representation for embodied agents that integrates spatial-functional relationships and part-level interactive elements. However, advancing such a representation requires both suitable data and rigorous evaluation, which have been largely missing. We thus contribute MomaGraph-Scenes, the first large-scale dataset of richly annotated, task-driven scene graphs in household environments, along with MomaGraph-Bench, a systematic evaluation suite spanning six reasoning capabilities from high-level planning to fine-grained scene understanding. Built upon this foundation, we further develop MomaGraph-R1, a 7B vision-language model trained with reinforcement learning on MomaGraph-Scenes. MomaGraph-R1 predicts task-oriented scene graphs and serves as a zero-shot task planner under a Graph-then-Plan framework. Extensive experiments demonstrate that our model achieves state-of-the-art results among open-source models, reaching 71.6% accuracy on the benchmark (+11.4% over the best baseline), while generalizing across public benchmarks and transferring effectively to real-robot experiments.
PDF12December 20, 2025