Click2Graph: Gráficos de Escena Panópticos Interactivos a partir de un Solo Clic
Click2Graph: Interactive Panoptic Video Scene Graphs from a Single Click
November 20, 2025
Autores: Raphael Ruschel, Hardikkumar Prajapati, Awsafur Rahman, B. S. Manjunath
cs.AI
Resumen
Los sistemas de vanguardia de Generación de Grafos de Escena en Video (VSGG) proporcionan una comprensión visual estructurada, pero operan como pipelines cerrados de avance directo sin capacidad para incorporar orientación humana. En contraste, los modelos de segmentación promptables como SAM2 permiten una interacción precisa del usuario pero carecen de razonamiento semántico o relacional. Presentamos Click2Graph, el primer marco interactivo para la Generación Panóptica de Grafos de Escena en Video (PVSG) que unifica el prompting visual con la comprensión espacial, temporal y semántica. A partir de una única indicación del usuario, como un clic o un cuadro delimitador, Click2Graph segmenta y rastrea el sujeto a lo largo del tiempo, descubre autónomamente los objetos que interactúan y predice tripletas <sujeto, objeto, predicado> para formar un grafo de escena temporalmente consistente. Nuestro marco introduce dos componentes clave: un Módulo de Descubrimiento de Interacción Dinámica que genera prompts de objetos condicionados por el sujeto, y un Cabezal de Clasificación Semántica que realiza un razonamiento conjunto de entidades y predicados. Los experimentos en el benchmark OpenPVSG demuestran que Click2Graph establece una base sólida para PVSG guiada por el usuario, mostrando cómo el prompting humano puede combinarse con la grounding panóptica y la inferencia relacional para permitir una comprensión de escenas en video controlable e interpretable.
English
State-of-the-art Video Scene Graph Generation (VSGG) systems provide structured visual understanding but operate as closed, feed-forward pipelines with no ability to incorporate human guidance. In contrast, promptable segmentation models such as SAM2 enable precise user interaction but lack semantic or relational reasoning. We introduce Click2Graph, the first interactive framework for Panoptic Video Scene Graph Generation (PVSG) that unifies visual prompting with spatial, temporal, and semantic understanding. From a single user cue, such as a click or bounding box, Click2Graph segments and tracks the subject across time, autonomously discovers interacting objects, and predicts <subject, object, predicate> triplets to form a temporally consistent scene graph. Our framework introduces two key components: a Dynamic Interaction Discovery Module that generates subject-conditioned object prompts, and a Semantic Classification Head that performs joint entity and predicate reasoning. Experiments on the OpenPVSG benchmark demonstrate that Click2Graph establishes a strong foundation for user-guided PVSG, showing how human prompting can be combined with panoptic grounding and relational inference to enable controllable and interpretable video scene understanding.