Click2Graph:ワンクリックで生成するインタラクティブなパノプティック動画シーングラフ
Click2Graph: Interactive Panoptic Video Scene Graphs from a Single Click
November 20, 2025
著者: Raphael Ruschel, Hardikkumar Prajapati, Awsafur Rahman, B. S. Manjunath
cs.AI
要旨
最先端のビデオシーングラフ生成(VSGG)システムは構造化された視覚的理解を提供するが、人間のガイダンスを取り込む能力のない閉じたフィードフォワードパイプラインとして動作する。一方、SAM2のようなプロンプト可能なセグメンテーションモデルは精密なユーザーインタラクションを可能にするが、意味的または関係的推論を欠いている。本論文では、パンオプティックビデオシーングラフ生成(PVSG)における初のインタラクティブフレームワークであるClick2Graphを提案する。本フレームワークは視覚的プロンプティングと空間的・時間的・意味的理解を統合する。クリックやバウンディングボックスなどの単一のユーザーキューから、Click2Graphは被写体を時間的にセグメンテーションおよび追跡し、相互作用するオブジェクトを自律的に発見し、<主語、目的語、述語>のトリプレットを予測して時間的に一貫性のあるシーングラフを形成する。本フレームワークでは、被写体条件付きのオブジェクトプロンプトを生成する動的インタラクション発見モジュールと、エンティティと述語の共同推論を行う意味的分類ヘッドという2つの主要コンポーネントを導入する。OpenPVSGベンチマークによる実験では、Click2Graphがユーザー誘導型PVSGの強固な基盤を確立することが示され、人間のプロンプティングがパンオプティックグラウンディングと関係推論と組み合わされることで、制御可能かつ解釈可能なビデオシーン理解が実現可能であることを実証している。
English
State-of-the-art Video Scene Graph Generation (VSGG) systems provide structured visual understanding but operate as closed, feed-forward pipelines with no ability to incorporate human guidance. In contrast, promptable segmentation models such as SAM2 enable precise user interaction but lack semantic or relational reasoning. We introduce Click2Graph, the first interactive framework for Panoptic Video Scene Graph Generation (PVSG) that unifies visual prompting with spatial, temporal, and semantic understanding. From a single user cue, such as a click or bounding box, Click2Graph segments and tracks the subject across time, autonomously discovers interacting objects, and predicts <subject, object, predicate> triplets to form a temporally consistent scene graph. Our framework introduces two key components: a Dynamic Interaction Discovery Module that generates subject-conditioned object prompts, and a Semantic Classification Head that performs joint entity and predicate reasoning. Experiments on the OpenPVSG benchmark demonstrate that Click2Graph establishes a strong foundation for user-guided PVSG, showing how human prompting can be combined with panoptic grounding and relational inference to enable controllable and interpretable video scene understanding.