Click2Graph: 단일 클릭으로 생성하는 인터랙티브 팬옵틱 비디오 장면 그래프
Click2Graph: Interactive Panoptic Video Scene Graphs from a Single Click
November 20, 2025
저자: Raphael Ruschel, Hardikkumar Prajapati, Awsafur Rahman, B. S. Manjunath
cs.AI
초록
최첨단 비디오 장면 그래프 생성(VSGG) 시스템은 구조화된 시각적 이해를 제공하지만 인간의 지도를 수용할 수 없는 폐쇄적 순방향 파이프라인으로 운영됩니다. 이에 반해 SAM2와 같은 프롬프트 가능 분할 모델은 정밀한 사용자 상호작용을 가능하게 하지만 의미론적 또는 관계적 추론 능력이 부족합니다. 본 연구에서는 시각적 프롬프팅과 공간적, 시간적, 의미론적 이해를 통합한 최초의 대화형 범위주시 비디오 장면 그래프 생성(PVSG) 프레임워크인 Click2Graph를 소개합니다. 클릭이나 바운딩 박스와 같은 단일 사용자 큐를 기반으로 Click2Graph는 시간에 걸쳐 대상을 분할 및 추적하고, 상호작용 객체를 자율적으로 발견하며, <주어, 객체, 서술어> 삼중항을 예측하여 시간적으로 일관된 장면 그래프를 형성합니다. 본 프레임워크는 주체 조건부 객체 프롬프트를 생성하는 동적 상호작용 발견 모듈과 결합된 엔티티 및 서술어 추론을 수행하는 의미론적 분류 헤드라는 두 가지 핵심 구성 요소를 도입합니다. OpenPVSG 벤치마크에서의 실험을 통해 Click2Graph가 사용자 주도 PVSG를 위한 강력한 기반을 구축함을 입증하며, 인간의 프롬프팅이 범위주시 기반 및 관계 추론과 결합되어 제어 가능하고 해석 가능한 비디오 장면 이해를 가능하게 하는 방식을 보여줍니다.
English
State-of-the-art Video Scene Graph Generation (VSGG) systems provide structured visual understanding but operate as closed, feed-forward pipelines with no ability to incorporate human guidance. In contrast, promptable segmentation models such as SAM2 enable precise user interaction but lack semantic or relational reasoning. We introduce Click2Graph, the first interactive framework for Panoptic Video Scene Graph Generation (PVSG) that unifies visual prompting with spatial, temporal, and semantic understanding. From a single user cue, such as a click or bounding box, Click2Graph segments and tracks the subject across time, autonomously discovers interacting objects, and predicts <subject, object, predicate> triplets to form a temporally consistent scene graph. Our framework introduces two key components: a Dynamic Interaction Discovery Module that generates subject-conditioned object prompts, and a Semantic Classification Head that performs joint entity and predicate reasoning. Experiments on the OpenPVSG benchmark demonstrate that Click2Graph establishes a strong foundation for user-guided PVSG, showing how human prompting can be combined with panoptic grounding and relational inference to enable controllable and interpretable video scene understanding.