Click2Graph: Grafi Scene Panottici Video Interattivi con un Singolo Click

Abstract

I sistemi all'avanguardia per la Generazione di Scene Graph da Video (VSGG) forniscono una comprensione visiva strutturata, ma operano come pipeline chiuse e feed-forward, senza la capacità di incorporare una guida umana. Al contrario, i modelli di segmentazione promptable come SAM2 consentono un'interazione utente precisa, ma mancano di ragionamento semantico o relazionale. Introduciamo Click2Graph, il primo framework interattivo per la Generazione Panottica di Scene Graph da Video (PVSG) che unisce il prompting visivo con la comprensione spaziale, temporale e semantica. Partendo da un singolo input utente, come un click o un bounding box, Click2Graph segmenta e traccia il soggetto nel tempo, scopre autonomamente gli oggetti interagenti e predice triplette <soggetto, oggetto, predicato> per formare un scene graph temporalmente consistente. Il nostro framework introduce due componenti chiave: un Modulo di Scoperta Interattiva Dinamica che genera prompt di oggetti condizionati al soggetto, e una Testa di Classificazione Semantica che esegue un ragionamento congiunto su entità e predicati. Esperimenti sul benchmark OpenPVSG dimostrano che Click2Graph stabilisce una solida base per la PVSG guidata dall'utente, mostrando come il prompting umano possa essere combinato con il grounding panottico e l'inferenza relazionale per abilitare una comprensione delle scene video controllabile e interpretabile.

English

State-of-the-art Video Scene Graph Generation (VSGG) systems provide structured visual understanding but operate as closed, feed-forward pipelines with no ability to incorporate human guidance. In contrast, promptable segmentation models such as SAM2 enable precise user interaction but lack semantic or relational reasoning. We introduce Click2Graph, the first interactive framework for Panoptic Video Scene Graph Generation (PVSG) that unifies visual prompting with spatial, temporal, and semantic understanding. From a single user cue, such as a click or bounding box, Click2Graph segments and tracks the subject across time, autonomously discovers interacting objects, and predicts <subject, object, predicate> triplets to form a temporally consistent scene graph. Our framework introduces two key components: a Dynamic Interaction Discovery Module that generates subject-conditioned object prompts, and a Semantic Classification Head that performs joint entity and predicate reasoning. Experiments on the OpenPVSG benchmark demonstrate that Click2Graph establishes a strong foundation for user-guided PVSG, showing how human prompting can be combined with panoptic grounding and relational inference to enable controllable and interpretable video scene understanding.

Click2Graph: Grafi Scene Panottici Video Interattivi con un Singolo Click

Click2Graph: Interactive Panoptic Video Scene Graphs from a Single Click

Abstract

Support