Click2Graph: Interaktive panoptische Videoszenengraphen aus einem einzigen Klick
Click2Graph: Interactive Panoptic Video Scene Graphs from a Single Click
November 20, 2025
papers.authors: Raphael Ruschel, Hardikkumar Prajapati, Awsafur Rahman, B. S. Manjunath
cs.AI
papers.abstract
State-of-the-Art-Systeme zur Erzeugung von Videoszenengraphen (Video Scene Graph Generation, VSGG) bieten ein strukturiertes visuelles Verständnis, arbeiten jedoch als geschlossene, vorwärtsgerichtete Pipelines ohne die Möglichkeit, menschliche Anweisungen zu integrieren. Im Gegensatz dazu ermöglichen promptbare Segmentierungsmodelle wie SAM2 eine präzise Benutzerinteraktion, mangelt es ihnen jedoch an semantischer oder relationaler Reasoning-Fähigkeit. Wir stellen Click2Graph vor, das erste interaktive Framework für panoptische Videoszenengraphen (Panoptic Video Scene Graph Generation, PVSG), das visuelles Prompting mit räumlichem, zeitlichem und semantischem Verständnis vereint. Ausgehend von einer einzigen Benutzeraufforderung, wie einem Klick oder einem Begrenzungsrahmen, segmentiert und verfolgt Click2Graph das Subjekt über die Zeit, entdeckt autonom interagierende Objekte und sagt <Subjekt, Objekt, Prädikat>-Triplets vorher, um einen zeitlich konsistenten Szenengraphen zu bilden. Unser Framework führt zwei Schlüsselkomponenten ein: ein Dynamic Interaction Discovery Module, das subjektkonditionierte Objekt-Prompts erzeugt, und einen Semantic Classification Head, der gemeinsames Reasoning für Entitäten und Prädikate durchführt. Experimente auf dem OpenPVSG-Benchmark zeigen, dass Click2Graph eine solide Grundlage für benutzergeführtes PVSG schafft und demonstrieren, wie menschliches Prompting mit panoptischer Verankerung und relationaler Inferenz kombiniert werden kann, um eine steuerbare und interpretierbare Videoszenenverständnis zu ermöglichen.
English
State-of-the-art Video Scene Graph Generation (VSGG) systems provide structured visual understanding but operate as closed, feed-forward pipelines with no ability to incorporate human guidance. In contrast, promptable segmentation models such as SAM2 enable precise user interaction but lack semantic or relational reasoning. We introduce Click2Graph, the first interactive framework for Panoptic Video Scene Graph Generation (PVSG) that unifies visual prompting with spatial, temporal, and semantic understanding. From a single user cue, such as a click or bounding box, Click2Graph segments and tracks the subject across time, autonomously discovers interacting objects, and predicts <subject, object, predicate> triplets to form a temporally consistent scene graph. Our framework introduces two key components: a Dynamic Interaction Discovery Module that generates subject-conditioned object prompts, and a Semantic Classification Head that performs joint entity and predicate reasoning. Experiments on the OpenPVSG benchmark demonstrate that Click2Graph establishes a strong foundation for user-guided PVSG, showing how human prompting can be combined with panoptic grounding and relational inference to enable controllable and interpretable video scene understanding.