UniVTG: Verso un'Unificazione del Temporal Grounding Video-Linguaggio
UniVTG: Towards Unified Video-Language Temporal Grounding
July 31, 2023
Autori: Kevin Qinghong Lin, Pengchuan Zhang, Joya Chen, Shraman Pramanick, Difei Gao, Alex Jinpeng Wang, Rui Yan, Mike Zheng Shou
cs.AI
Abstract
Il Video Temporal Grounding (VTG), che mira a individuare clip target dai video (come intervalli consecutivi o sequenze disgiunte) in base a query linguistiche personalizzate (ad esempio, frasi o parole), è fondamentale per la navigazione dei video sui social media. La maggior parte dei metodi in questo ambito sviluppa modelli specifici per il compito, addestrati con etichette di tipo specifico, come il recupero di momenti (intervallo temporale) e il rilevamento di momenti salienti (curva di rilevanza), il che limita la loro capacità di generalizzare a vari compiti ed etichette VTG. In questo articolo, proponiamo di unificare le diverse etichette e compiti VTG, denominato UniVTG, lungo tre direzioni: in primo luogo, esaminiamo un'ampia gamma di etichette e compiti VTG e definiamo una formulazione unificata. Sulla base di ciò, sviluppiamo schemi di annotazione dei dati per creare una supervisione pseudo scalabile. In secondo luogo, sviluppiamo un modello di grounding efficace e flessibile in grado di affrontare ogni compito e di sfruttare appieno ogni etichetta. Infine, grazie al framework unificato, siamo in grado di sbloccare il pretraining del temporal grounding da etichette diversificate su larga scala e sviluppare capacità di grounding più forti, ad esempio il grounding zero-shot. Esperimenti estesi su tre compiti (recupero di momenti, rilevamento di momenti salienti e riassunto video) su sette dataset (QVHighlights, Charades-STA, TACoS, Ego4D, YouTube Highlights, TVSum e QFVS) dimostrano l'efficacia e la flessibilità del nostro framework proposto. I codici sono disponibili all'indirizzo https://github.com/showlab/UniVTG.
English
Video Temporal Grounding (VTG), which aims to ground target clips from videos
(such as consecutive intervals or disjoint shots) according to custom language
queries (e.g., sentences or words), is key for video browsing on social media.
Most methods in this direction develop taskspecific models that are trained
with type-specific labels, such as moment retrieval (time interval) and
highlight detection (worthiness curve), which limits their abilities to
generalize to various VTG tasks and labels. In this paper, we propose to Unify
the diverse VTG labels and tasks, dubbed UniVTG, along three directions:
Firstly, we revisit a wide range of VTG labels and tasks and define a unified
formulation. Based on this, we develop data annotation schemes to create
scalable pseudo supervision. Secondly, we develop an effective and flexible
grounding model capable of addressing each task and making full use of each
label. Lastly, thanks to the unified framework, we are able to unlock temporal
grounding pretraining from large-scale diverse labels and develop stronger
grounding abilities e.g., zero-shot grounding. Extensive experiments on three
tasks (moment retrieval, highlight detection and video summarization) across
seven datasets (QVHighlights, Charades-STA, TACoS, Ego4D, YouTube Highlights,
TVSum, and QFVS) demonstrate the effectiveness and flexibility of our proposed
framework. The codes are available at https://github.com/showlab/UniVTG.