ChatPaper.aiChatPaper

InternVid: Масштабный видеотекстовый набор данных для мультимодального понимания и генерации

InternVid: A Large-scale Video-Text Dataset for Multimodal Understanding and Generation

July 13, 2023
Авторы: Yi Wang, Yinan He, Yizhuo Li, Kunchang Li, Jiashuo Yu, Xin Ma, Xinyuan Chen, Yaohui Wang, Ping Luo, Ziwei Liu, Yali Wang, Limin Wang, Yu Qiao
cs.AI

Аннотация

В данной статье представлен InternVid — крупномасштабный видеоцентричный мультимодальный набор данных, который позволяет изучать мощные и переносимые видеотекстовые представления для мультимодального понимания и генерации. Набор данных InternVid содержит более 7 миллионов видео общей продолжительностью около 760 тысяч часов, включая 234 миллиона видеоклипов, сопровождаемых детальными описаниями объемом 4,1 миллиарда слов. Наш ключевой вклад заключается в разработке масштабируемого подхода для автономного создания высококачественного видеотекстового набора данных с использованием больших языковых моделей (LLM), что демонстрирует их эффективность в изучении видеоязыковых представлений в больших масштабах. В частности, мы применяем многоуровневый подход для генерации описаний, связанных с видео. Кроме того, мы представляем ViCLIP — модель обучения видеотекстовых представлений на основе ViT-L. Обученная на InternVid с использованием контрастивного обучения, эта модель демонстрирует лидирующие результаты в задаче распознавания действий с нулевым обучением (zero-shot) и конкурентоспособную производительность в задаче поиска видео. Помимо базовых задач понимания видео, таких как распознавание и поиск, наш набор данных и модель имеют широкий спектр применений. Они особенно полезны для генерации чередующихся видеотекстовых данных для обучения видеоцентричной диалоговой системы, а также для продвижения исследований в области генерации видео в текст и текста в видео. Предложенные ресурсы предоставляют инструмент для исследователей и практиков, заинтересованных в мультимодальном понимании и генерации видео.
English
This paper introduces InternVid, a large-scale video-centric multimodal dataset that enables learning powerful and transferable video-text representations for multimodal understanding and generation. The InternVid dataset contains over 7 million videos lasting nearly 760K hours, yielding 234M video clips accompanied by detailed descriptions of total 4.1B words. Our core contribution is to develop a scalable approach to autonomously build a high-quality video-text dataset with large language models (LLM), thereby showcasing its efficacy in learning video-language representation at scale. Specifically, we utilize a multi-scale approach to generate video-related descriptions. Furthermore, we introduce ViCLIP, a video-text representation learning model based on ViT-L. Learned on InternVid via contrastive learning, this model demonstrates leading zero-shot action recognition and competitive video retrieval performance. Beyond basic video understanding tasks like recognition and retrieval, our dataset and model have broad applications. They are particularly beneficial for generating interleaved video-text data for learning a video-centric dialogue system, advancing video-to-text and text-to-video generation research. These proposed resources provide a tool for researchers and practitioners interested in multimodal video understanding and generation.
PDF230December 15, 2024