InternVid: Een grootschalige video-tekst dataset voor multimodale interpretatie en generatie
InternVid: A Large-scale Video-Text Dataset for Multimodal Understanding and Generation
July 13, 2023
Auteurs: Yi Wang, Yinan He, Yizhuo Li, Kunchang Li, Jiashuo Yu, Xin Ma, Xinyuan Chen, Yaohui Wang, Ping Luo, Ziwei Liu, Yali Wang, Limin Wang, Yu Qiao
cs.AI
Samenvatting
Dit artikel introduceert InternVid, een grootschalige, video-centrische multimodale dataset die het mogelijk maakt krachtige en overdraagbare video-tekst representaties te leren voor multimodale begrips- en generatietaken. De InternVid dataset bevat meer dan 7 miljoen video's met een totale duur van bijna 760K uur, wat resulteert in 234M videoclips vergezeld van gedetailleerde beschrijvingen van in totaal 4,1 miljard woorden. Onze kernbijdrage is het ontwikkelen van een schaalbare aanpak om autonoom een hoogwaardige video-tekst dataset te bouwen met behulp van grote taalmodellen (LLM), waardoor de effectiviteit ervan wordt aangetoond bij het leren van video-taal representaties op grote schaal. Specifiek maken we gebruik van een multi-schaal aanpak om video-gerelateerde beschrijvingen te genereren. Daarnaast introduceren we ViCLIP, een video-tekst representatie-leermodel gebaseerd op ViT-L. Dit model, getraind op InternVid via contrastief leren, toont leidende zero-shot actieherkenning en competitieve video-retrieval prestaties. Naast basisvideo-begripstaken zoals herkenning en retrieval, hebben onze dataset en model brede toepassingen. Ze zijn met name nuttig voor het genereren van verweven video-tekst data voor het leren van een video-centraal dialoogsysteem, en voor het bevorderen van onderzoek naar video-naar-tekst en tekst-naar-video generatie. Deze voorgestelde bronnen bieden een hulpmiddel voor onderzoekers en praktijkmensen die geïnteresseerd zijn in multimodale video-begrips- en generatietaken.
English
This paper introduces InternVid, a large-scale video-centric multimodal
dataset that enables learning powerful and transferable video-text
representations for multimodal understanding and generation. The InternVid
dataset contains over 7 million videos lasting nearly 760K hours, yielding 234M
video clips accompanied by detailed descriptions of total 4.1B words. Our core
contribution is to develop a scalable approach to autonomously build a
high-quality video-text dataset with large language models (LLM), thereby
showcasing its efficacy in learning video-language representation at scale.
Specifically, we utilize a multi-scale approach to generate video-related
descriptions. Furthermore, we introduce ViCLIP, a video-text representation
learning model based on ViT-L. Learned on InternVid via contrastive learning,
this model demonstrates leading zero-shot action recognition and competitive
video retrieval performance. Beyond basic video understanding tasks like
recognition and retrieval, our dataset and model have broad applications. They
are particularly beneficial for generating interleaved video-text data for
learning a video-centric dialogue system, advancing video-to-text and
text-to-video generation research. These proposed resources provide a tool for
researchers and practitioners interested in multimodal video understanding and
generation.