UniVTG: Rumo à Unificação da Ancoragem Temporal em Vídeo-Linguagem
UniVTG: Towards Unified Video-Language Temporal Grounding
July 31, 2023
Autores: Kevin Qinghong Lin, Pengchuan Zhang, Joya Chen, Shraman Pramanick, Difei Gao, Alex Jinpeng Wang, Rui Yan, Mike Zheng Shou
cs.AI
Resumo
O Video Temporal Grounding (VTG), que visa localizar clipes-alvo em vídeos (como intervalos consecutivos ou cenas desconexas) com base em consultas de linguagem personalizadas (por exemplo, frases ou palavras), é essencial para a navegação de vídeos em mídias sociais. A maioria dos métodos nessa direção desenvolve modelos específicos para tarefas que são treinados com rótulos específicos de tipo, como recuperação de momentos (intervalo de tempo) e detecção de destaques (curva de relevância), o que limita sua capacidade de generalização para diversas tarefas e rótulos de VTG. Neste artigo, propomos unificar os diversos rótulos e tarefas de VTG, denominado UniVTG, em três direções: Primeiramente, revisitamos uma ampla gama de rótulos e tarefas de VTG e definimos uma formulação unificada. Com base nisso, desenvolvemos esquemas de anotação de dados para criar supervisão pseudo escalável. Em segundo lugar, desenvolvemos um modelo de localização eficaz e flexível capaz de abordar cada tarefa e aproveitar ao máximo cada rótulo. Por fim, graças ao framework unificado, conseguimos desbloquear o pré-treinamento de localização temporal a partir de rótulos diversos em grande escala e desenvolver habilidades de localização mais robustas, por exemplo, localização zero-shot. Experimentos extensivos em três tarefas (recuperação de momentos, detecção de destaques e sumarização de vídeos) em sete conjuntos de dados (QVHighlights, Charades-STA, TACoS, Ego4D, YouTube Highlights, TVSum e QFVS) demonstram a eficácia e a flexibilidade do nosso framework proposto. Os códigos estão disponíveis em https://github.com/showlab/UniVTG.
English
Video Temporal Grounding (VTG), which aims to ground target clips from videos
(such as consecutive intervals or disjoint shots) according to custom language
queries (e.g., sentences or words), is key for video browsing on social media.
Most methods in this direction develop taskspecific models that are trained
with type-specific labels, such as moment retrieval (time interval) and
highlight detection (worthiness curve), which limits their abilities to
generalize to various VTG tasks and labels. In this paper, we propose to Unify
the diverse VTG labels and tasks, dubbed UniVTG, along three directions:
Firstly, we revisit a wide range of VTG labels and tasks and define a unified
formulation. Based on this, we develop data annotation schemes to create
scalable pseudo supervision. Secondly, we develop an effective and flexible
grounding model capable of addressing each task and making full use of each
label. Lastly, thanks to the unified framework, we are able to unlock temporal
grounding pretraining from large-scale diverse labels and develop stronger
grounding abilities e.g., zero-shot grounding. Extensive experiments on three
tasks (moment retrieval, highlight detection and video summarization) across
seven datasets (QVHighlights, Charades-STA, TACoS, Ego4D, YouTube Highlights,
TVSum, and QFVS) demonstrate the effectiveness and flexibility of our proposed
framework. The codes are available at https://github.com/showlab/UniVTG.