InternVid: Un Dataset Su Scala di Video-Testo per la Comprensione e Generazione Multimodale
InternVid: A Large-scale Video-Text Dataset for Multimodal Understanding and Generation
July 13, 2023
Autori: Yi Wang, Yinan He, Yizhuo Li, Kunchang Li, Jiashuo Yu, Xin Ma, Xinyuan Chen, Yaohui Wang, Ping Luo, Ziwei Liu, Yali Wang, Limin Wang, Yu Qiao
cs.AI
Abstract
Questo articolo introduce InternVid, un dataset multimodale su larga scala centrato sui video che consente l'apprendimento di rappresentazioni video-testo potenti e trasferibili per la comprensione e la generazione multimodale. Il dataset InternVid contiene oltre 7 milioni di video della durata complessiva di quasi 760.000 ore, producendo 234 milioni di clip video accompagnati da descrizioni dettagliate per un totale di 4,1 miliardi di parole. Il nostro contributo principale è lo sviluppo di un approccio scalabile per costruire in modo autonomo un dataset video-testo di alta qualità utilizzando modelli linguistici di grandi dimensioni (LLM), dimostrandone così l'efficacia nell'apprendimento di rappresentazioni video-linguistiche su larga scala. Nello specifico, utilizziamo un approccio multi-scala per generare descrizioni relative ai video. Inoltre, introduciamo ViCLIP, un modello di apprendimento di rappresentazioni video-testo basato su ViT-L. Appreso su InternVid tramite apprendimento contrastivo, questo modello dimostra prestazioni leader nel riconoscimento di azioni zero-shot e una performance competitiva nel recupero video. Oltre alle attività di base di comprensione video come il riconoscimento e il recupero, il nostro dataset e modello hanno ampie applicazioni. Sono particolarmente utili per generare dati video-testo intervallati per l'apprendimento di un sistema di dialogo centrato sui video, avanzando la ricerca nella generazione da video a testo e da testo a video. Queste risorse proposte forniscono uno strumento per ricercatori e professionisti interessati alla comprensione e generazione multimodale dei video.
English
This paper introduces InternVid, a large-scale video-centric multimodal
dataset that enables learning powerful and transferable video-text
representations for multimodal understanding and generation. The InternVid
dataset contains over 7 million videos lasting nearly 760K hours, yielding 234M
video clips accompanied by detailed descriptions of total 4.1B words. Our core
contribution is to develop a scalable approach to autonomously build a
high-quality video-text dataset with large language models (LLM), thereby
showcasing its efficacy in learning video-language representation at scale.
Specifically, we utilize a multi-scale approach to generate video-related
descriptions. Furthermore, we introduce ViCLIP, a video-text representation
learning model based on ViT-L. Learned on InternVid via contrastive learning,
this model demonstrates leading zero-shot action recognition and competitive
video retrieval performance. Beyond basic video understanding tasks like
recognition and retrieval, our dataset and model have broad applications. They
are particularly beneficial for generating interleaved video-text data for
learning a video-centric dialogue system, advancing video-to-text and
text-to-video generation research. These proposed resources provide a tool for
researchers and practitioners interested in multimodal video understanding and
generation.