Click2Graph: Interactieve Panoptische Videoscènegrafieken met één Klik

Samenvatting

State-of-the-art Video Scene Graph Generation (VSGG)-systemen bieden een gestructureerd visueel begrip, maar functioneren als gesloten, voorwaartse pijplijnen zonder de mogelijkheid om menselijke begeleiding te incorporeren. Daarentegen maken promptbare segmentatiemodellen zoals SAM2 precieze gebruikersinteractie mogelijk, maar ontbreekt het hen aan semantisch of relationeel redeneervermogen. Wij introduceren Click2Graph, het eerste interactieve framework voor Panoptic Video Scene Graph Generation (PVSG) dat visuele prompting verenigt met ruimtelijk, temporeel en semantisch begrip. Vanuit een enkele gebruikersaanwijzing, zoals een klik of bounding box, segmenteert en volgt Click2Graph het onderwerp in de tijd, ontdekt autonoom interagerende objecten, en voorspelt <onderwerp, object, predikaat>-triples om een temporeel consistente scènegraaf te vormen. Ons framework introduceert twee kerncomponenten: een Dynamic Interaction Discovery Module die onderwerp-geconditioneerde objectprompts genereert, en een Semantic Classification Head die gezamenlijke entiteits- en predikaatredenering uitvoert. Experimenten op de OpenPVSG-benchmark tonen aan dat Click2Graph een sterke basis legt voor gebruikersgestuurde PVSG, en aantonen hoe menselijke prompting gecombineerd kan worden met panoptische grounding en relationele inferentie om een controleerbaar en interpreteerbaar video-scènebegrip mogelijk te maken.

English

State-of-the-art Video Scene Graph Generation (VSGG) systems provide structured visual understanding but operate as closed, feed-forward pipelines with no ability to incorporate human guidance. In contrast, promptable segmentation models such as SAM2 enable precise user interaction but lack semantic or relational reasoning. We introduce Click2Graph, the first interactive framework for Panoptic Video Scene Graph Generation (PVSG) that unifies visual prompting with spatial, temporal, and semantic understanding. From a single user cue, such as a click or bounding box, Click2Graph segments and tracks the subject across time, autonomously discovers interacting objects, and predicts <subject, object, predicate> triplets to form a temporally consistent scene graph. Our framework introduces two key components: a Dynamic Interaction Discovery Module that generates subject-conditioned object prompts, and a Semantic Classification Head that performs joint entity and predicate reasoning. Experiments on the OpenPVSG benchmark demonstrate that Click2Graph establishes a strong foundation for user-guided PVSG, showing how human prompting can be combined with panoptic grounding and relational inference to enable controllable and interpretable video scene understanding.

Click2Graph: Interactieve Panoptische Videoscènegrafieken met één Klik

Click2Graph: Interactive Panoptic Video Scene Graphs from a Single Click

Samenvatting

Support