VidLA: Alinhamento Vídeo-Linguagem em Escala
VidLA: Video-Language Alignment at Scale
March 21, 2024
Autores: Mamshad Nayeem Rizve, Fan Fei, Jayakrishnan Unnikrishnan, Son Tran, Benjamin Z. Yao, Belinda Zeng, Mubarak Shah, Trishul Chilimbi
cs.AI
Resumo
Neste artigo, propomos o VidLA, uma abordagem para o alinhamento vídeo-linguagem em larga escala. Existem duas grandes limitações nas abordagens anteriores de alinhamento vídeo-linguagem. Primeiro, elas não capturam dependências temporais de curto e longo prazo e geralmente empregam arquiteturas de redes profundas hierárquicas complexas que são difíceis de integrar com modelos de base pré-treinados de imagem-texto existentes. Para abordar efetivamente essa limitação, mantemos a arquitetura da rede simples e utilizamos um conjunto de tokens de dados que operam em diferentes resoluções temporais de maneira hierárquica, considerando a natureza temporalmente hierárquica dos vídeos. Ao empregar uma arquitetura simples de duas torres, conseguimos inicializar nosso modelo vídeo-linguagem com modelos de base pré-treinados de imagem-texto, melhorando assim o desempenho final. Segundo, os trabalhos existentes de alinhamento vídeo-linguagem enfrentam dificuldades devido à falta de dados de treinamento em larga escala semanticamente alinhados. Para superar isso, aproveitamos LLMs recentes para criar o maior conjunto de dados vídeo-linguagem até o momento, com melhor fundamentação visual. Além disso, ao contrário dos conjuntos de dados vídeo-texto existentes, que contêm apenas clipes curtos, nosso conjunto de dados é enriquecido com clipes de vídeo de durações variadas para auxiliar nossos tokens de dados temporalmente hierárquicos a extrair melhores representações em diferentes escalas temporais. No geral, os resultados empíricos mostram que nossa abordagem proposta supera os métodos state-of-the-art em vários benchmarks de recuperação, especialmente em vídeos mais longos, e tem desempenho competitivo em benchmarks de classificação.
English
In this paper, we propose VidLA, an approach for video-language alignment at
scale. There are two major limitations of previous video-language alignment
approaches. First, they do not capture both short-range and long-range temporal
dependencies and typically employ complex hierarchical deep network
architectures that are hard to integrate with existing pretrained image-text
foundation models. To effectively address this limitation, we instead keep the
network architecture simple and use a set of data tokens that operate at
different temporal resolutions in a hierarchical manner, accounting for the
temporally hierarchical nature of videos. By employing a simple two-tower
architecture, we are able to initialize our video-language model with
pretrained image-text foundation models, thereby boosting the final
performance. Second, existing video-language alignment works struggle due to
the lack of semantically aligned large-scale training data. To overcome it, we
leverage recent LLMs to curate the largest video-language dataset to date with
better visual grounding. Furthermore, unlike existing video-text datasets which
only contain short clips, our dataset is enriched with video clips of varying
durations to aid our temporally hierarchical data tokens in extracting better
representations at varying temporal scales. Overall, empirical results show
that our proposed approach surpasses state-of-the-art methods on multiple
retrieval benchmarks, especially on longer videos, and performs competitively
on classification benchmarks.