VidLA: Allineamento Video-Linguaggio su Larga Scala
VidLA: Video-Language Alignment at Scale
March 21, 2024
Autori: Mamshad Nayeem Rizve, Fan Fei, Jayakrishnan Unnikrishnan, Son Tran, Benjamin Z. Yao, Belinda Zeng, Mubarak Shah, Trishul Chilimbi
cs.AI
Abstract
In questo articolo, proponiamo VidLA, un approccio per l'allineamento video-linguaggio su larga scala. Esistono due principali limitazioni negli approcci precedenti di allineamento video-linguaggio. In primo luogo, non catturano le dipendenze temporali sia a breve che a lungo raggio e tipicamente impiegano architetture di reti neurali profonde gerarchiche complesse, difficili da integrare con i modelli foundation pre-addestrati immagine-testo esistenti. Per affrontare efficacemente questa limitazione, manteniamo invece l'architettura della rete semplice e utilizziamo un insieme di token di dati che operano a diverse risoluzioni temporali in modo gerarchico, tenendo conto della natura temporalmente gerarchica dei video. Utilizzando una semplice architettura a due torri, siamo in grado di inizializzare il nostro modello video-linguaggio con modelli foundation pre-addestrati immagine-testo, migliorando così le prestazioni finali. In secondo luogo, i lavori esistenti sull'allineamento video-linguaggio faticano a causa della mancanza di dati di addestramento su larga scala semanticamente allineati. Per superare questo problema, sfruttiamo i recenti LLM per curare il più grande dataset video-linguaggio fino ad oggi con un migliore grounding visivo. Inoltre, a differenza dei dataset video-testo esistenti che contengono solo clip brevi, il nostro dataset è arricchito con clip video di durata variabile per aiutare i nostri token di dati gerarchici temporali a estrarre rappresentazioni migliori a diverse scale temporali. Nel complesso, i risultati empirici mostrano che il nostro approccio proposto supera i metodi all'avanguardia su molteplici benchmark di retrieval, specialmente su video più lunghi, e si comporta in modo competitivo sui benchmark di classificazione.
English
In this paper, we propose VidLA, an approach for video-language alignment at
scale. There are two major limitations of previous video-language alignment
approaches. First, they do not capture both short-range and long-range temporal
dependencies and typically employ complex hierarchical deep network
architectures that are hard to integrate with existing pretrained image-text
foundation models. To effectively address this limitation, we instead keep the
network architecture simple and use a set of data tokens that operate at
different temporal resolutions in a hierarchical manner, accounting for the
temporally hierarchical nature of videos. By employing a simple two-tower
architecture, we are able to initialize our video-language model with
pretrained image-text foundation models, thereby boosting the final
performance. Second, existing video-language alignment works struggle due to
the lack of semantically aligned large-scale training data. To overcome it, we
leverage recent LLMs to curate the largest video-language dataset to date with
better visual grounding. Furthermore, unlike existing video-text datasets which
only contain short clips, our dataset is enriched with video clips of varying
durations to aid our temporally hierarchical data tokens in extracting better
representations at varying temporal scales. Overall, empirical results show
that our proposed approach surpasses state-of-the-art methods on multiple
retrieval benchmarks, especially on longer videos, and performs competitively
on classification benchmarks.