InternVid: Ein groß angelegtes Video-Text-Datensatz für multimodales Verständnis und Generierung
InternVid: A Large-scale Video-Text Dataset for Multimodal Understanding and Generation
July 13, 2023
Autoren: Yi Wang, Yinan He, Yizhuo Li, Kunchang Li, Jiashuo Yu, Xin Ma, Xinyuan Chen, Yaohui Wang, Ping Luo, Ziwei Liu, Yali Wang, Limin Wang, Yu Qiao
cs.AI
Zusammenfassung
Dieses Paper stellt InternVid vor, einen groß angelegten, videozentrierten multimodalen Datensatz, der das Erlernen leistungsstarker und übertragbarer Video-Text-Repräsentationen für multimodales Verständnis und Generierung ermöglicht. Der InternVid-Datensatz enthält über 7 Millionen Videos mit einer Gesamtdauer von fast 760.000 Stunden, die 234 Millionen Videoclips mit detaillierten Beschreibungen von insgesamt 4,1 Milliarden Wörtern liefern. Unser Kernbeitrag besteht darin, einen skalierbaren Ansatz zu entwickeln, um autonom einen hochwertigen Video-Text-Datensatz mit großen Sprachmodellen (LLM) zu erstellen, wodurch dessen Wirksamkeit beim Erlernen von Video-Sprach-Repräsentationen im großen Maßstab demonstriert wird. Insbesondere nutzen wir einen mehrstufigen Ansatz, um videobezogene Beschreibungen zu generieren. Darüber hinaus stellen wir ViCLIP vor, ein Video-Text-Repräsentationslernmodell basierend auf ViT-L. Dieses Modell, das auf InternVid durch kontrastives Lernen trainiert wurde, zeigt führende Leistungen bei der Null-Shot-Aktionserkennung und wettbewerbsfähige Ergebnisse bei der Videorecherche. Über grundlegende Video-Verständnisaufgaben wie Erkennung und Recherche hinaus haben unser Datensatz und Modell breite Anwendungsmöglichkeiten. Sie sind besonders vorteilhaft für die Generierung von verschachtelten Video-Text-Daten zum Erlernen eines videozentrierten Dialogsystems und fördern die Forschung zur Video-zu-Text- und Text-zu-Video-Generierung. Diese vorgeschlagenen Ressourcen bieten ein Werkzeug für Forscher und Praktiker, die an multimodaler Video-Verständnis und -Generierung interessiert sind.
English
This paper introduces InternVid, a large-scale video-centric multimodal
dataset that enables learning powerful and transferable video-text
representations for multimodal understanding and generation. The InternVid
dataset contains over 7 million videos lasting nearly 760K hours, yielding 234M
video clips accompanied by detailed descriptions of total 4.1B words. Our core
contribution is to develop a scalable approach to autonomously build a
high-quality video-text dataset with large language models (LLM), thereby
showcasing its efficacy in learning video-language representation at scale.
Specifically, we utilize a multi-scale approach to generate video-related
descriptions. Furthermore, we introduce ViCLIP, a video-text representation
learning model based on ViT-L. Learned on InternVid via contrastive learning,
this model demonstrates leading zero-shot action recognition and competitive
video retrieval performance. Beyond basic video understanding tasks like
recognition and retrieval, our dataset and model have broad applications. They
are particularly beneficial for generating interleaved video-text data for
learning a video-centric dialogue system, advancing video-to-text and
text-to-video generation research. These proposed resources provide a tool for
researchers and practitioners interested in multimodal video understanding and
generation.