VidLA : Alignement Vidéo-Langue à Grande Échelle

VidLA: Video-Language Alignment at Scale

March 21, 2024
Auteurs: Mamshad Nayeem Rizve, Fan Fei, Jayakrishnan Unnikrishnan, Son Tran, Benjamin Z. Yao, Belinda Zeng, Mubarak Shah, Trishul Chilimbi
cs.AI

Résumé

Dans cet article, nous proposons VidLA, une approche pour l'alignement vidéo-langue à grande échelle. Les approches précédentes d'alignement vidéo-langue présentent deux limitations majeures. Premièrement, elles ne capturent pas à la fois les dépendances temporelles à court et à long terme et emploient généralement des architectures de réseaux profonds hiérarchiques complexes, difficiles à intégrer avec les modèles de base pré-entraînés image-texte existants. Pour résoudre efficacement cette limitation, nous optons plutôt pour une architecture de réseau simple et utilisons un ensemble de tokens de données opérant à différentes résolutions temporelles de manière hiérarchique, tenant compte de la nature temporellement hiérarchique des vidéos. En employant une architecture simple à deux tours, nous pouvons initialiser notre modèle vidéo-langue avec des modèles de base image-texte pré-entraînés, améliorant ainsi les performances finales. Deuxièmement, les travaux existants sur l'alignement vidéo-langue peinent en raison du manque de données d'entraînement à grande échelle sémantiquement alignées. Pour surmonter cela, nous exploitons les récents LLM pour constituer le plus grand ensemble de données vidéo-langue à ce jour, avec un meilleur ancrage visuel. De plus, contrairement aux ensembles de données vidéo-texte existants qui ne contiennent que de courts clips, notre ensemble de données est enrichi de clips vidéo de durées variées pour aider nos tokens de données temporellement hiérarchiques à extraire de meilleures représentations à différentes échelles temporelles. Globalement, les résultats empiriques montrent que notre approche proposée surpasse les méthodes de pointe sur plusieurs benchmarks de recherche, en particulier sur les vidéos plus longues, et performe de manière compétitive sur les benchmarks de classification.
English
In this paper, we propose VidLA, an approach for video-language alignment at scale. There are two major limitations of previous video-language alignment approaches. First, they do not capture both short-range and long-range temporal dependencies and typically employ complex hierarchical deep network architectures that are hard to integrate with existing pretrained image-text foundation models. To effectively address this limitation, we instead keep the network architecture simple and use a set of data tokens that operate at different temporal resolutions in a hierarchical manner, accounting for the temporally hierarchical nature of videos. By employing a simple two-tower architecture, we are able to initialize our video-language model with pretrained image-text foundation models, thereby boosting the final performance. Second, existing video-language alignment works struggle due to the lack of semantically aligned large-scale training data. To overcome it, we leverage recent LLMs to curate the largest video-language dataset to date with better visual grounding. Furthermore, unlike existing video-text datasets which only contain short clips, our dataset is enriched with video clips of varying durations to aid our temporally hierarchical data tokens in extracting better representations at varying temporal scales. Overall, empirical results show that our proposed approach surpasses state-of-the-art methods on multiple retrieval benchmarks, especially on longer videos, and performs competitively on classification benchmarks.

Summary

AI-Generated Summary

PDF141December 15, 2024