VidLA: Выравнивание видео и языка в масштабе
VidLA: Video-Language Alignment at Scale
March 21, 2024
Авторы: Mamshad Nayeem Rizve, Fan Fei, Jayakrishnan Unnikrishnan, Son Tran, Benjamin Z. Yao, Belinda Zeng, Mubarak Shah, Trishul Chilimbi
cs.AI
Аннотация
В данной статье мы предлагаем VidLA - подход к выравниванию видео и языка в масштабе. Существуют два основных ограничения предыдущих подходов к выравниванию видео и языка. Во-первых, они не учитывают как краткосрочные, так и долгосрочные временные зависимости и обычно используют сложные иерархические глубокие сетевые архитектуры, которые сложно интегрировать с существующими предварительно обученными моделями основы изображения-текста. Для эффективного преодоления этого ограничения мы предлагаем простую архитектуру сети и использование набора данныхных токенов, работающих на разных временных разрешениях иерархически, учитывая временную иерархическую природу видео. Применяя простую двухбашенную архитектуру, мы можем инициализировать нашу модель видео-языка с предварительно обученными моделями основы изображения-текста, тем самым улучшая конечную производительность. Во-вторых, существующие работы по выравниванию видео и языка испытывают трудности из-за отсутствия семантически выровненных обширных обучающих данных. Чтобы преодолеть это, мы используем недавние LLM для составления крупнейшего на сегодняшний день набора данных видео-языка с лучшим визуальным закреплением. Более того, в отличие от существующих наборов данных видео-текст, содержащих только короткие клипы, наш набор данных обогащен видеоклипами различной длительности, чтобы помочь нашим временным иерархическим данным токенам извлекать лучшие представления на различных временных масштабах. В целом, эмпирические результаты показывают, что наш предложенный подход превосходит существующие методы на нескольких бенчмарках поиска, особенно на более длинных видео, и конкурентоспособен на бенчмарках классификации.
English
In this paper, we propose VidLA, an approach for video-language alignment at
scale. There are two major limitations of previous video-language alignment
approaches. First, they do not capture both short-range and long-range temporal
dependencies and typically employ complex hierarchical deep network
architectures that are hard to integrate with existing pretrained image-text
foundation models. To effectively address this limitation, we instead keep the
network architecture simple and use a set of data tokens that operate at
different temporal resolutions in a hierarchical manner, accounting for the
temporally hierarchical nature of videos. By employing a simple two-tower
architecture, we are able to initialize our video-language model with
pretrained image-text foundation models, thereby boosting the final
performance. Second, existing video-language alignment works struggle due to
the lack of semantically aligned large-scale training data. To overcome it, we
leverage recent LLMs to curate the largest video-language dataset to date with
better visual grounding. Furthermore, unlike existing video-text datasets which
only contain short clips, our dataset is enriched with video clips of varying
durations to aid our temporally hierarchical data tokens in extracting better
representations at varying temporal scales. Overall, empirical results show
that our proposed approach surpasses state-of-the-art methods on multiple
retrieval benchmarks, especially on longer videos, and performs competitively
on classification benchmarks.Summary
AI-Generated Summary