ChatPaper.aiChatPaper

Click2Graph : Graphes scènes vidéo panoptiques interactifs à partir d'un seul clic

Click2Graph: Interactive Panoptic Video Scene Graphs from a Single Click

November 20, 2025
papers.authors: Raphael Ruschel, Hardikkumar Prajapati, Awsafur Rahman, B. S. Manjunath
cs.AI

papers.abstract

Les systèmes actuels de génération de graphes de scènes vidéo (VSGG) offrent une compréhension visuelle structurée mais fonctionnent comme des pipelines fermés en feed-forward sans capacité à intégrer des guidages humains. En revanche, les modèles de segmentation guidable comme SAM2 permettent une interaction utilisateur précise mais manquent de raisonnement sémantique ou relationnel. Nous présentons Click2Graph, le premier cadre interactif pour la génération panoptique de graphes de scènes vidéo (PVSG) qui unifie le guidage visuel avec la compréhension spatiale, temporelle et sémantique. À partir d'une simple indication utilisateur, comme un clic ou une boîte englobante, Click2Graph segmente et suit le sujet dans le temps, découvre de manière autonome les objets en interaction, et prédit des triplets <sujet, objet, prédicat> pour former un graphe de scène temporellement cohérent. Notre cadre introduit deux composantes clés : un module de découverte d'interactions dynamiques qui génère des invites d'objets conditionnées au sujet, et une tête de classification sémantique qui effectue un raisonnement conjoint sur les entités et les prédicats. Les expériences sur le benchmark OpenPVSG démontrent que Click2Graph établit une base solide pour la PVSG guidée par l'utilisateur, montrant comment le guidage humain peut être combiné avec l'ancrage panoptique et l'inférence relationnelle pour permettre une compréhension vidéo contrôlable et interprétable des scènes.
English
State-of-the-art Video Scene Graph Generation (VSGG) systems provide structured visual understanding but operate as closed, feed-forward pipelines with no ability to incorporate human guidance. In contrast, promptable segmentation models such as SAM2 enable precise user interaction but lack semantic or relational reasoning. We introduce Click2Graph, the first interactive framework for Panoptic Video Scene Graph Generation (PVSG) that unifies visual prompting with spatial, temporal, and semantic understanding. From a single user cue, such as a click or bounding box, Click2Graph segments and tracks the subject across time, autonomously discovers interacting objects, and predicts <subject, object, predicate> triplets to form a temporally consistent scene graph. Our framework introduces two key components: a Dynamic Interaction Discovery Module that generates subject-conditioned object prompts, and a Semantic Classification Head that performs joint entity and predicate reasoning. Experiments on the OpenPVSG benchmark demonstrate that Click2Graph establishes a strong foundation for user-guided PVSG, showing how human prompting can be combined with panoptic grounding and relational inference to enable controllable and interpretable video scene understanding.
PDF01December 4, 2025