VidLA: Alineación Video-Lenguaje a Gran Escala

VidLA: Video-Language Alignment at Scale

March 21, 2024
Autores: Mamshad Nayeem Rizve, Fan Fei, Jayakrishnan Unnikrishnan, Son Tran, Benjamin Z. Yao, Belinda Zeng, Mubarak Shah, Trishul Chilimbi
cs.AI

Resumen

En este artículo, proponemos VidLA, un enfoque para la alineación video-lenguaje a gran escala. Existen dos limitaciones principales en los enfoques previos de alineación video-lenguaje. En primer lugar, no capturan tanto las dependencias temporales de corto como de largo alcance y, por lo general, emplean arquitecturas de redes profundas jerárquicas complejas que son difíciles de integrar con los modelos base preentrenados de imagen-texto existentes. Para abordar eficazmente esta limitación, en su lugar mantenemos la arquitectura de la red simple y utilizamos un conjunto de tokens de datos que operan a diferentes resoluciones temporales de manera jerárquica, teniendo en cuenta la naturaleza temporalmente jerárquica de los videos. Al emplear una arquitectura simple de dos torres, podemos inicializar nuestro modelo video-lenguaje con modelos base preentrenados de imagen-texto, mejorando así el rendimiento final. En segundo lugar, los trabajos existentes de alineación video-lenguaje enfrentan dificultades debido a la falta de datos de entrenamiento a gran escala semánticamente alineados. Para superar esto, aprovechamos modelos de lenguaje grandes (LLMs) recientes para curar el mayor conjunto de datos video-lenguaje hasta la fecha con un mejor anclaje visual. Además, a diferencia de los conjuntos de datos video-texto existentes que solo contienen clips cortos, nuestro conjunto de datos está enriquecido con clips de video de duraciones variadas para ayudar a nuestros tokens de datos jerárquicos temporales a extraer mejores representaciones en diferentes escalas temporales. En general, los resultados empíricos muestran que nuestro enfoque propuesto supera a los métodos más avanzados en múltiples benchmarks de recuperación, especialmente en videos más largos, y compite de manera competitiva en benchmarks de clasificación.
English
In this paper, we propose VidLA, an approach for video-language alignment at scale. There are two major limitations of previous video-language alignment approaches. First, they do not capture both short-range and long-range temporal dependencies and typically employ complex hierarchical deep network architectures that are hard to integrate with existing pretrained image-text foundation models. To effectively address this limitation, we instead keep the network architecture simple and use a set of data tokens that operate at different temporal resolutions in a hierarchical manner, accounting for the temporally hierarchical nature of videos. By employing a simple two-tower architecture, we are able to initialize our video-language model with pretrained image-text foundation models, thereby boosting the final performance. Second, existing video-language alignment works struggle due to the lack of semantically aligned large-scale training data. To overcome it, we leverage recent LLMs to curate the largest video-language dataset to date with better visual grounding. Furthermore, unlike existing video-text datasets which only contain short clips, our dataset is enriched with video clips of varying durations to aid our temporally hierarchical data tokens in extracting better representations at varying temporal scales. Overall, empirical results show that our proposed approach surpasses state-of-the-art methods on multiple retrieval benchmarks, especially on longer videos, and performs competitively on classification benchmarks.

Summary

AI-Generated Summary

PDF141December 15, 2024