Click2Graph: Grafos de Cena Panópticos Interativos a Partir de um Único Clique

Resumo

Os sistemas de última geração para Geração de Grafos de Cena em Vídeo (VSGG) fornecem compreensão visual estruturada, mas operam como pipelines fechados e de avanço direto, sem capacidade de incorporar orientação humana. Em contraste, modelos de segmentação acionáveis por prompt, como o SAM2, permitem interação precisa do usuário, mas carecem de raciocínio semântico ou relacional. Apresentamos o Click2Graph, o primeiro framework interativo para Geração de Grafos de Cena Panóptica em Vídeo (PVSG) que unifica o prompting visual com a compreensão espacial, temporal e semântica. A partir de uma única indicação do usuário, como um clique ou uma caixa delimitadora, o Click2Graph segmenta e rastreia o sujeito ao longo do tempo, descobre autonomamente objetos interagentes e prevê triplas <sujeito, objeto, predicado> para formar um grafo de cena temporalmente consistente. Nosso framework introduz dois componentes-chave: um Módulo de Descoberta de Interação Dinâmica que gera prompts de objetos condicionados ao sujeito, e um Cabeçalho de Classificação Semântica que realiza raciocínio conjunto de entidades e predicados. Experimentos no benchmark OpenPVSG demonstram que o Click2Graph estabelece uma base sólida para PVSG guiada pelo usuário, mostrando como o prompting humano pode ser combinado com a ancoragem panóptica e a inferência relacional para permitir uma compreensão de cena em vídeo controlável e interpretável.

English

State-of-the-art Video Scene Graph Generation (VSGG) systems provide structured visual understanding but operate as closed, feed-forward pipelines with no ability to incorporate human guidance. In contrast, promptable segmentation models such as SAM2 enable precise user interaction but lack semantic or relational reasoning. We introduce Click2Graph, the first interactive framework for Panoptic Video Scene Graph Generation (PVSG) that unifies visual prompting with spatial, temporal, and semantic understanding. From a single user cue, such as a click or bounding box, Click2Graph segments and tracks the subject across time, autonomously discovers interacting objects, and predicts <subject, object, predicate> triplets to form a temporally consistent scene graph. Our framework introduces two key components: a Dynamic Interaction Discovery Module that generates subject-conditioned object prompts, and a Semantic Classification Head that performs joint entity and predicate reasoning. Experiments on the OpenPVSG benchmark demonstrate that Click2Graph establishes a strong foundation for user-guided PVSG, showing how human prompting can be combined with panoptic grounding and relational inference to enable controllable and interpretable video scene understanding.

Click2Graph: Grafos de Cena Panópticos Interativos a Partir de um Único Clique

Click2Graph: Interactive Panoptic Video Scene Graphs from a Single Click

Resumo

Support