ChatPaper.aiChatPaper

UniVTG: Hacia una Fundamentación Temporal Unificada en Video-Lenguaje

UniVTG: Towards Unified Video-Language Temporal Grounding

July 31, 2023
Autores: Kevin Qinghong Lin, Pengchuan Zhang, Joya Chen, Shraman Pramanick, Difei Gao, Alex Jinpeng Wang, Rui Yan, Mike Zheng Shou
cs.AI

Resumen

El Anclaje Temporal en Videos (VTG, por sus siglas en inglés), que tiene como objetivo localizar segmentos específicos en videos (como intervalos consecutivos o tomas discontinuas) según consultas de lenguaje personalizadas (por ejemplo, frases o palabras), es fundamental para la navegación de videos en redes sociales. La mayoría de los métodos en esta dirección desarrollan modelos específicos para tareas que se entrenan con etiquetas específicas del tipo, como la recuperación de momentos (intervalos de tiempo) y la detección de momentos destacados (curva de relevancia), lo que limita su capacidad para generalizar a diversas tareas y etiquetas de VTG. En este artículo, proponemos unificar las diversas etiquetas y tareas de VTG, denominado UniVTG, en tres direcciones: En primer lugar, revisamos una amplia gama de etiquetas y tareas de VTG y definimos una formulación unificada. Basándonos en esto, desarrollamos esquemas de anotación de datos para crear supervisión pseudoetiquetada escalable. En segundo lugar, desarrollamos un modelo de anclaje efectivo y flexible capaz de abordar cada tarea y aprovechar al máximo cada etiqueta. Por último, gracias al marco unificado, podemos desbloquear el preentrenamiento de anclaje temporal a partir de etiquetas diversas a gran escala y desarrollar habilidades de anclaje más fuertes, como el anclaje zero-shot. Experimentos exhaustivos en tres tareas (recuperación de momentos, detección de momentos destacados y resumen de videos) en siete conjuntos de datos (QVHighlights, Charades-STA, TACoS, Ego4D, YouTube Highlights, TVSum y QFVS) demuestran la efectividad y flexibilidad de nuestro marco propuesto. Los códigos están disponibles en https://github.com/showlab/UniVTG.
English
Video Temporal Grounding (VTG), which aims to ground target clips from videos (such as consecutive intervals or disjoint shots) according to custom language queries (e.g., sentences or words), is key for video browsing on social media. Most methods in this direction develop taskspecific models that are trained with type-specific labels, such as moment retrieval (time interval) and highlight detection (worthiness curve), which limits their abilities to generalize to various VTG tasks and labels. In this paper, we propose to Unify the diverse VTG labels and tasks, dubbed UniVTG, along three directions: Firstly, we revisit a wide range of VTG labels and tasks and define a unified formulation. Based on this, we develop data annotation schemes to create scalable pseudo supervision. Secondly, we develop an effective and flexible grounding model capable of addressing each task and making full use of each label. Lastly, thanks to the unified framework, we are able to unlock temporal grounding pretraining from large-scale diverse labels and develop stronger grounding abilities e.g., zero-shot grounding. Extensive experiments on three tasks (moment retrieval, highlight detection and video summarization) across seven datasets (QVHighlights, Charades-STA, TACoS, Ego4D, YouTube Highlights, TVSum, and QFVS) demonstrate the effectiveness and flexibility of our proposed framework. The codes are available at https://github.com/showlab/UniVTG.
PDF112December 15, 2024