VidLA: Alinhamento Vídeo-Linguagem em Escala

Resumo

Neste artigo, propomos o VidLA, uma abordagem para o alinhamento vídeo-linguagem em larga escala. Existem duas grandes limitações nas abordagens anteriores de alinhamento vídeo-linguagem. Primeiro, elas não capturam dependências temporais de curto e longo prazo e geralmente empregam arquiteturas de redes profundas hierárquicas complexas que são difíceis de integrar com modelos de base pré-treinados de imagem-texto existentes. Para abordar efetivamente essa limitação, mantemos a arquitetura da rede simples e utilizamos um conjunto de tokens de dados que operam em diferentes resoluções temporais de maneira hierárquica, considerando a natureza temporalmente hierárquica dos vídeos. Ao empregar uma arquitetura simples de duas torres, conseguimos inicializar nosso modelo vídeo-linguagem com modelos de base pré-treinados de imagem-texto, melhorando assim o desempenho final. Segundo, os trabalhos existentes de alinhamento vídeo-linguagem enfrentam dificuldades devido à falta de dados de treinamento em larga escala semanticamente alinhados. Para superar isso, aproveitamos LLMs recentes para criar o maior conjunto de dados vídeo-linguagem até o momento, com melhor fundamentação visual. Além disso, ao contrário dos conjuntos de dados vídeo-texto existentes, que contêm apenas clipes curtos, nosso conjunto de dados é enriquecido com clipes de vídeo de durações variadas para auxiliar nossos tokens de dados temporalmente hierárquicos a extrair melhores representações em diferentes escalas temporais. No geral, os resultados empíricos mostram que nossa abordagem proposta supera os métodos state-of-the-art em vários benchmarks de recuperação, especialmente em vídeos mais longos, e tem desempenho competitivo em benchmarks de classificação.

English

In this paper, we propose VidLA, an approach for video-language alignment at scale. There are two major limitations of previous video-language alignment approaches. First, they do not capture both short-range and long-range temporal dependencies and typically employ complex hierarchical deep network architectures that are hard to integrate with existing pretrained image-text foundation models. To effectively address this limitation, we instead keep the network architecture simple and use a set of data tokens that operate at different temporal resolutions in a hierarchical manner, accounting for the temporally hierarchical nature of videos. By employing a simple two-tower architecture, we are able to initialize our video-language model with pretrained image-text foundation models, thereby boosting the final performance. Second, existing video-language alignment works struggle due to the lack of semantically aligned large-scale training data. To overcome it, we leverage recent LLMs to curate the largest video-language dataset to date with better visual grounding. Furthermore, unlike existing video-text datasets which only contain short clips, our dataset is enriched with video clips of varying durations to aid our temporally hierarchical data tokens in extracting better representations at varying temporal scales. Overall, empirical results show that our proposed approach surpasses state-of-the-art methods on multiple retrieval benchmarks, especially on longer videos, and performs competitively on classification benchmarks.

VidLA: Alinhamento Vídeo-Linguagem em Escala

VidLA: Video-Language Alignment at Scale

Resumo

Support