UniVTG : Vers un ancrage temporel unifié pour les vidéos et le langage
UniVTG: Towards Unified Video-Language Temporal Grounding
July 31, 2023
Auteurs: Kevin Qinghong Lin, Pengchuan Zhang, Joya Chen, Shraman Pramanick, Difei Gao, Alex Jinpeng Wang, Rui Yan, Mike Zheng Shou
cs.AI
Résumé
Le repérage temporel dans les vidéos (Video Temporal Grounding, VTG), qui vise à localiser des clips cibles dans des vidéos (tels que des intervalles consécutifs ou des plans disjoints) en fonction de requêtes linguistiques personnalisées (par exemple, des phrases ou des mots), est essentiel pour la navigation vidéo sur les réseaux sociaux. La plupart des méthodes dans ce domaine développent des modèles spécifiques à une tâche, entraînés avec des étiquettes spécifiques à un type, comme la récupération de moments (intervalle temporel) et la détection de moments forts (courbe de pertinence), ce qui limite leur capacité à généraliser à diverses tâches et étiquettes de VTG. Dans cet article, nous proposons d'unifier les différentes étiquettes et tâches de VTG, appelé UniVTG, selon trois axes : Premièrement, nous revisitons un large éventail d'étiquettes et de tâches de VTG et définissons une formulation unifiée. Sur cette base, nous développons des schémas d'annotation de données pour créer une supervision pseudo-scalable. Deuxièmement, nous développons un modèle de repérage efficace et flexible capable de traiter chaque tâche et d'utiliser pleinement chaque étiquette. Enfin, grâce au cadre unifié, nous sommes en mesure de débloquer le pré-entraînement de repérage temporel à partir d'étiquettes diversifiées à grande échelle et de développer des capacités de repérage plus fortes, par exemple, le repérage zero-shot. Des expériences approfondies sur trois tâches (récupération de moments, détection de moments forts et résumé vidéo) à travers sept jeux de données (QVHighlights, Charades-STA, TACoS, Ego4D, YouTube Highlights, TVSum et QFVS) démontrent l'efficacité et la flexibilité de notre cadre proposé. Les codes sont disponibles à l'adresse https://github.com/showlab/UniVTG.
English
Video Temporal Grounding (VTG), which aims to ground target clips from videos
(such as consecutive intervals or disjoint shots) according to custom language
queries (e.g., sentences or words), is key for video browsing on social media.
Most methods in this direction develop taskspecific models that are trained
with type-specific labels, such as moment retrieval (time interval) and
highlight detection (worthiness curve), which limits their abilities to
generalize to various VTG tasks and labels. In this paper, we propose to Unify
the diverse VTG labels and tasks, dubbed UniVTG, along three directions:
Firstly, we revisit a wide range of VTG labels and tasks and define a unified
formulation. Based on this, we develop data annotation schemes to create
scalable pseudo supervision. Secondly, we develop an effective and flexible
grounding model capable of addressing each task and making full use of each
label. Lastly, thanks to the unified framework, we are able to unlock temporal
grounding pretraining from large-scale diverse labels and develop stronger
grounding abilities e.g., zero-shot grounding. Extensive experiments on three
tasks (moment retrieval, highlight detection and video summarization) across
seven datasets (QVHighlights, Charades-STA, TACoS, Ego4D, YouTube Highlights,
TVSum, and QFVS) demonstrate the effectiveness and flexibility of our proposed
framework. The codes are available at https://github.com/showlab/UniVTG.