UniVTG: К унифицированному временному привязыванию в видео и тексте
UniVTG: Towards Unified Video-Language Temporal Grounding
July 31, 2023
Авторы: Kevin Qinghong Lin, Pengchuan Zhang, Joya Chen, Shraman Pramanick, Difei Gao, Alex Jinpeng Wang, Rui Yan, Mike Zheng Shou
cs.AI
Аннотация
Временное закрепление видео (Video Temporal Grounding, VTG), целью которого является выделение целевых фрагментов из видео (например, последовательных интервалов или разрозненных сцен) в соответствии с пользовательскими языковыми запросами (например, предложениями или словами), играет ключевую роль для просмотра видео в социальных сетях. Большинство методов в этой области разрабатывают специализированные модели, которые обучаются с использованием меток, специфичных для конкретного типа задач, таких как поиск моментов (временной интервал) и обнаружение ключевых моментов (кривая значимости), что ограничивает их способность обобщаться для различных задач и меток VTG. В данной статье мы предлагаем унифицировать разнообразные метки и задачи VTG, назвав этот подход UniVTG, по трем направлениям: Во-первых, мы пересматриваем широкий спектр меток и задач VTG и определяем унифицированную формулировку. На основе этого мы разрабатываем схемы аннотирования данных для создания масштабируемого псевдо-надзора. Во-вторых, мы разрабатываем эффективную и гибкую модель закрепления, способную решать каждую задачу и полностью использовать каждую метку. Наконец, благодаря унифицированной структуре, мы можем реализовать предварительное обучение временного закрепления на основе крупномасштабных разнообразных меток и развить более сильные способности закрепления, например, закрепление в условиях нулевого сценария (zero-shot grounding). Обширные эксперименты на трех задачах (поиск моментов, обнаружение ключевых моментов и суммаризация видео) на семи наборах данных (QVHighlights, Charades-STA, TACoS, Ego4D, YouTube Highlights, TVSum и QFVS) демонстрируют эффективность и гибкость предложенной нами структуры. Код доступен по адресу https://github.com/showlab/UniVTG.
English
Video Temporal Grounding (VTG), which aims to ground target clips from videos
(such as consecutive intervals or disjoint shots) according to custom language
queries (e.g., sentences or words), is key for video browsing on social media.
Most methods in this direction develop taskspecific models that are trained
with type-specific labels, such as moment retrieval (time interval) and
highlight detection (worthiness curve), which limits their abilities to
generalize to various VTG tasks and labels. In this paper, we propose to Unify
the diverse VTG labels and tasks, dubbed UniVTG, along three directions:
Firstly, we revisit a wide range of VTG labels and tasks and define a unified
formulation. Based on this, we develop data annotation schemes to create
scalable pseudo supervision. Secondly, we develop an effective and flexible
grounding model capable of addressing each task and making full use of each
label. Lastly, thanks to the unified framework, we are able to unlock temporal
grounding pretraining from large-scale diverse labels and develop stronger
grounding abilities e.g., zero-shot grounding. Extensive experiments on three
tasks (moment retrieval, highlight detection and video summarization) across
seven datasets (QVHighlights, Charades-STA, TACoS, Ego4D, YouTube Highlights,
TVSum, and QFVS) demonstrate the effectiveness and flexibility of our proposed
framework. The codes are available at https://github.com/showlab/UniVTG.