ChatPaper.aiChatPaper

VidLA: Video-Taaluitlijning op Schaal

VidLA: Video-Language Alignment at Scale

March 21, 2024
Auteurs: Mamshad Nayeem Rizve, Fan Fei, Jayakrishnan Unnikrishnan, Son Tran, Benjamin Z. Yao, Belinda Zeng, Mubarak Shah, Trishul Chilimbi
cs.AI

Samenvatting

In dit artikel introduceren we VidLA, een benadering voor video-taalalignatie op grote schaal. Er zijn twee belangrijke beperkingen van eerdere benaderingen voor video-taalalignatie. Ten eerste vangen ze zowel kortetermijn- als langetermijntijdelijke afhankelijkheden niet goed op en gebruiken ze meestal complexe hiërarchische deep network-architecturen die moeilijk te integreren zijn met bestaande voorgetrainde beeld-tekst foundation-modellen. Om deze beperking effectief aan te pakken, houden we de netwerkarchitectuur eenvoudig en gebruiken we een set datatokens die op verschillende temporele resoluties werken op een hiërarchische manier, rekening houdend met de temporeel hiërarchische aard van video's. Door een eenvoudige two-tower-architectuur te gebruiken, kunnen we ons video-taalmodel initialiseren met voorgetrainde beeld-tekst foundation-modellen, waardoor de uiteindelijke prestaties worden verbeterd. Ten tweede worstelen bestaande video-taalalignatiebenaderingen door het ontbreken van semantisch uitgelijnde grootschalige trainingsdata. Om dit te overwinnen, maken we gebruik van recente LLM's om de grootste video-taaldataset tot nu toe samen te stellen met betere visuele verankering. Bovendien bevat onze dataset, in tegenstelling tot bestaande video-tekstdatasets die alleen korte clips bevatten, video's van verschillende duur om onze temporeel hiërarchische datatokens te helpen betere representaties te extraheren op verschillende temporele schalen. Over het algemeen tonen empirische resultaten aan dat onze voorgestelde benadering state-of-the-art methoden overtreft op meerdere retrievalbenchmarks, vooral op langere video's, en competitief presteert op classificatiebenchmarks.
English
In this paper, we propose VidLA, an approach for video-language alignment at scale. There are two major limitations of previous video-language alignment approaches. First, they do not capture both short-range and long-range temporal dependencies and typically employ complex hierarchical deep network architectures that are hard to integrate with existing pretrained image-text foundation models. To effectively address this limitation, we instead keep the network architecture simple and use a set of data tokens that operate at different temporal resolutions in a hierarchical manner, accounting for the temporally hierarchical nature of videos. By employing a simple two-tower architecture, we are able to initialize our video-language model with pretrained image-text foundation models, thereby boosting the final performance. Second, existing video-language alignment works struggle due to the lack of semantically aligned large-scale training data. To overcome it, we leverage recent LLMs to curate the largest video-language dataset to date with better visual grounding. Furthermore, unlike existing video-text datasets which only contain short clips, our dataset is enriched with video clips of varying durations to aid our temporally hierarchical data tokens in extracting better representations at varying temporal scales. Overall, empirical results show that our proposed approach surpasses state-of-the-art methods on multiple retrieval benchmarks, especially on longer videos, and performs competitively on classification benchmarks.
PDF151February 7, 2026