VidLA: Video-Taaluitlijning op Schaal
VidLA: Video-Language Alignment at Scale
March 21, 2024
Auteurs: Mamshad Nayeem Rizve, Fan Fei, Jayakrishnan Unnikrishnan, Son Tran, Benjamin Z. Yao, Belinda Zeng, Mubarak Shah, Trishul Chilimbi
cs.AI
Samenvatting
In dit artikel introduceren we VidLA, een benadering voor video-taalalignatie op grote schaal. Er zijn twee belangrijke beperkingen van eerdere benaderingen voor video-taalalignatie. Ten eerste vangen ze zowel kortetermijn- als langetermijntijdelijke afhankelijkheden niet goed op en gebruiken ze meestal complexe hiërarchische deep network-architecturen die moeilijk te integreren zijn met bestaande voorgetrainde beeld-tekst foundation-modellen. Om deze beperking effectief aan te pakken, houden we de netwerkarchitectuur eenvoudig en gebruiken we een set datatokens die op verschillende temporele resoluties werken op een hiërarchische manier, rekening houdend met de temporeel hiërarchische aard van video's. Door een eenvoudige two-tower-architectuur te gebruiken, kunnen we ons video-taalmodel initialiseren met voorgetrainde beeld-tekst foundation-modellen, waardoor de uiteindelijke prestaties worden verbeterd. Ten tweede worstelen bestaande video-taalalignatiebenaderingen door het ontbreken van semantisch uitgelijnde grootschalige trainingsdata. Om dit te overwinnen, maken we gebruik van recente LLM's om de grootste video-taaldataset tot nu toe samen te stellen met betere visuele verankering. Bovendien bevat onze dataset, in tegenstelling tot bestaande video-tekstdatasets die alleen korte clips bevatten, video's van verschillende duur om onze temporeel hiërarchische datatokens te helpen betere representaties te extraheren op verschillende temporele schalen. Over het algemeen tonen empirische resultaten aan dat onze voorgestelde benadering state-of-the-art methoden overtreft op meerdere retrievalbenchmarks, vooral op langere video's, en competitief presteert op classificatiebenchmarks.
English
In this paper, we propose VidLA, an approach for video-language alignment at
scale. There are two major limitations of previous video-language alignment
approaches. First, they do not capture both short-range and long-range temporal
dependencies and typically employ complex hierarchical deep network
architectures that are hard to integrate with existing pretrained image-text
foundation models. To effectively address this limitation, we instead keep the
network architecture simple and use a set of data tokens that operate at
different temporal resolutions in a hierarchical manner, accounting for the
temporally hierarchical nature of videos. By employing a simple two-tower
architecture, we are able to initialize our video-language model with
pretrained image-text foundation models, thereby boosting the final
performance. Second, existing video-language alignment works struggle due to
the lack of semantically aligned large-scale training data. To overcome it, we
leverage recent LLMs to curate the largest video-language dataset to date with
better visual grounding. Furthermore, unlike existing video-text datasets which
only contain short clips, our dataset is enriched with video clips of varying
durations to aid our temporally hierarchical data tokens in extracting better
representations at varying temporal scales. Overall, empirical results show
that our proposed approach surpasses state-of-the-art methods on multiple
retrieval benchmarks, especially on longer videos, and performs competitively
on classification benchmarks.