UniVTG: Naar een Uniforme Temporele Verankering van Video en Taal

Samenvatting

Video Temporal Grounding (VTG), dat als doel heeft om doelgerichte fragmenten uit video's te lokaliseren (zoals opeenvolgende intervallen of losse shots) op basis van aangepaste taalquery's (bijvoorbeeld zinnen of woorden), is essentieel voor het browsen van video's op sociale media. De meeste methoden in deze richting ontwikkelen taakspecifieke modellen die worden getraind met typespecifieke labels, zoals momentretrieval (tijdsinterval) en highlightdetectie (waardigheidscurve), wat hun vermogen beperkt om te generaliseren naar verschillende VTG-taken en labels. In dit artikel stellen we voor om de diverse VTG-labels en taken te unificeren, genaamd UniVTG, langs drie richtingen: Ten eerste herzien we een breed scala aan VTG-labels en taken en definiëren we een geünificeerde formulering. Op basis hiervan ontwikkelen we data-annotatieschema's om schaalbare pseudosupervisie te creëren. Ten tweede ontwikkelen we een effectief en flexibel grondingsmodel dat in staat is om elke taak aan te pakken en elk label optimaal te benutten. Tot slot, dankzij het geünificeerde raamwerk, kunnen we temporele grondingspretraining ontgrendelen vanuit grootschalige diverse labels en sterkere grondingsvaardigheden ontwikkelen, zoals zero-shot grounding. Uitgebreide experimenten op drie taken (momentretrieval, highlightdetectie en videosamenvatting) over zeven datasets (QVHighlights, Charades-STA, TACoS, Ego4D, YouTube Highlights, TVSum en QFVS) demonstreren de effectiviteit en flexibiliteit van ons voorgestelde raamwerk. De codes zijn beschikbaar op https://github.com/showlab/UniVTG.

English

Video Temporal Grounding (VTG), which aims to ground target clips from videos (such as consecutive intervals or disjoint shots) according to custom language queries (e.g., sentences or words), is key for video browsing on social media. Most methods in this direction develop taskspecific models that are trained with type-specific labels, such as moment retrieval (time interval) and highlight detection (worthiness curve), which limits their abilities to generalize to various VTG tasks and labels. In this paper, we propose to Unify the diverse VTG labels and tasks, dubbed UniVTG, along three directions: Firstly, we revisit a wide range of VTG labels and tasks and define a unified formulation. Based on this, we develop data annotation schemes to create scalable pseudo supervision. Secondly, we develop an effective and flexible grounding model capable of addressing each task and making full use of each label. Lastly, thanks to the unified framework, we are able to unlock temporal grounding pretraining from large-scale diverse labels and develop stronger grounding abilities e.g., zero-shot grounding. Extensive experiments on three tasks (moment retrieval, highlight detection and video summarization) across seven datasets (QVHighlights, Charades-STA, TACoS, Ego4D, YouTube Highlights, TVSum, and QFVS) demonstrate the effectiveness and flexibility of our proposed framework. The codes are available at https://github.com/showlab/UniVTG.

UniVTG: Naar een Uniforme Temporele Verankering van Video en Taal

UniVTG: Towards Unified Video-Language Temporal Grounding

Samenvatting

Support