UniVTG: Naar een Uniforme Temporele Verankering van Video en Taal
UniVTG: Towards Unified Video-Language Temporal Grounding
July 31, 2023
Auteurs: Kevin Qinghong Lin, Pengchuan Zhang, Joya Chen, Shraman Pramanick, Difei Gao, Alex Jinpeng Wang, Rui Yan, Mike Zheng Shou
cs.AI
Samenvatting
Video Temporal Grounding (VTG), dat als doel heeft om doelgerichte fragmenten uit video's te lokaliseren (zoals opeenvolgende intervallen of losse shots) op basis van aangepaste taalquery's (bijvoorbeeld zinnen of woorden), is essentieel voor het browsen van video's op sociale media. De meeste methoden in deze richting ontwikkelen taakspecifieke modellen die worden getraind met typespecifieke labels, zoals momentretrieval (tijdsinterval) en highlightdetectie (waardigheidscurve), wat hun vermogen beperkt om te generaliseren naar verschillende VTG-taken en labels. In dit artikel stellen we voor om de diverse VTG-labels en taken te unificeren, genaamd UniVTG, langs drie richtingen: Ten eerste herzien we een breed scala aan VTG-labels en taken en definiëren we een geünificeerde formulering. Op basis hiervan ontwikkelen we data-annotatieschema's om schaalbare pseudosupervisie te creëren. Ten tweede ontwikkelen we een effectief en flexibel grondingsmodel dat in staat is om elke taak aan te pakken en elk label optimaal te benutten. Tot slot, dankzij het geünificeerde raamwerk, kunnen we temporele grondingspretraining ontgrendelen vanuit grootschalige diverse labels en sterkere grondingsvaardigheden ontwikkelen, zoals zero-shot grounding. Uitgebreide experimenten op drie taken (momentretrieval, highlightdetectie en videosamenvatting) over zeven datasets (QVHighlights, Charades-STA, TACoS, Ego4D, YouTube Highlights, TVSum en QFVS) demonstreren de effectiviteit en flexibiliteit van ons voorgestelde raamwerk. De codes zijn beschikbaar op https://github.com/showlab/UniVTG.
English
Video Temporal Grounding (VTG), which aims to ground target clips from videos
(such as consecutive intervals or disjoint shots) according to custom language
queries (e.g., sentences or words), is key for video browsing on social media.
Most methods in this direction develop taskspecific models that are trained
with type-specific labels, such as moment retrieval (time interval) and
highlight detection (worthiness curve), which limits their abilities to
generalize to various VTG tasks and labels. In this paper, we propose to Unify
the diverse VTG labels and tasks, dubbed UniVTG, along three directions:
Firstly, we revisit a wide range of VTG labels and tasks and define a unified
formulation. Based on this, we develop data annotation schemes to create
scalable pseudo supervision. Secondly, we develop an effective and flexible
grounding model capable of addressing each task and making full use of each
label. Lastly, thanks to the unified framework, we are able to unlock temporal
grounding pretraining from large-scale diverse labels and develop stronger
grounding abilities e.g., zero-shot grounding. Extensive experiments on three
tasks (moment retrieval, highlight detection and video summarization) across
seven datasets (QVHighlights, Charades-STA, TACoS, Ego4D, YouTube Highlights,
TVSum, and QFVS) demonstrate the effectiveness and flexibility of our proposed
framework. The codes are available at https://github.com/showlab/UniVTG.