ChatPaper.aiChatPaper

Click2Graph: Интерактивные панорамные видеосценарные графы по одному клику

Click2Graph: Interactive Panoptic Video Scene Graphs from a Single Click

November 20, 2025
Авторы: Raphael Ruschel, Hardikkumar Prajapati, Awsafur Rahman, B. S. Manjunath
cs.AI

Аннотация

Современные системы генерации графов сцен из видео (Video Scene Graph Generation, VSGG) обеспечивают структурированное визуальное понимание, но функционируют как замкнутые прямопроходные конвейеры, не способные учитывать указания человека. В отличие от них, промптируемые модели сегментации, такие как SAM2, позволяют точно взаимодействовать с пользователем, но лишены семантического или реляционного анализа. Мы представляем Click2Graph — первую интерактивную платформу для паноптической генерации графов сцен из видео (Panoptic Video Scene Graph Generation, PVSG), которая объединяет визуальное промптирование с пространственным, временным и семантическим пониманием. На основе единственного пользовательского сигнала, такого как клик или ограничивающая рамка, Click2Graph сегментирует и отслеживает субъект во времени, автономно обнаруживает взаимодействующие объекты и предсказывает триплеты <субъект, объект, предикат> для формирования временно согласованного графа сцены. Наша платформа включает два ключевых компонента: модуль динамического обнаружения взаимодействий, который генерирует объектные промты, обусловленные субъектом, и семантический классификатор, выполняющий совместный анализ сущностей и предикатов. Эксперименты на бенчмарке OpenPVSG демонстрируют, что Click2Graph закладывает прочную основу для пользовательско-управляемой PVSG, показывая, как человеческие промты можно комбинировать с паноптическим grounding'ом и реляционным выводом для обеспечения контролируемого и интерпретируемого понимания видеосцен.
English
State-of-the-art Video Scene Graph Generation (VSGG) systems provide structured visual understanding but operate as closed, feed-forward pipelines with no ability to incorporate human guidance. In contrast, promptable segmentation models such as SAM2 enable precise user interaction but lack semantic or relational reasoning. We introduce Click2Graph, the first interactive framework for Panoptic Video Scene Graph Generation (PVSG) that unifies visual prompting with spatial, temporal, and semantic understanding. From a single user cue, such as a click or bounding box, Click2Graph segments and tracks the subject across time, autonomously discovers interacting objects, and predicts <subject, object, predicate> triplets to form a temporally consistent scene graph. Our framework introduces two key components: a Dynamic Interaction Discovery Module that generates subject-conditioned object prompts, and a Semantic Classification Head that performs joint entity and predicate reasoning. Experiments on the OpenPVSG benchmark demonstrate that Click2Graph establishes a strong foundation for user-guided PVSG, showing how human prompting can be combined with panoptic grounding and relational inference to enable controllable and interpretable video scene understanding.
PDF01December 4, 2025