ChatPaper.aiChatPaper

InternVid: Un conjunto de datos a gran escala de video-texto para comprensión y generación multimodal

InternVid: A Large-scale Video-Text Dataset for Multimodal Understanding and Generation

July 13, 2023
Autores: Yi Wang, Yinan He, Yizhuo Li, Kunchang Li, Jiashuo Yu, Xin Ma, Xinyuan Chen, Yaohui Wang, Ping Luo, Ziwei Liu, Yali Wang, Limin Wang, Yu Qiao
cs.AI

Resumen

Este artículo presenta InternVid, un conjunto de datos multimodal centrado en video a gran escala que permite aprender representaciones potentes y transferibles de video-texto para la comprensión y generación multimodal. El conjunto de datos InternVid contiene más de 7 millones de videos que suman cerca de 760K horas, generando 234M clips de video acompañados por descripciones detalladas de un total de 4.1B palabras. Nuestra contribución principal es desarrollar un enfoque escalable para construir de manera autónoma un conjunto de datos video-texto de alta calidad con modelos de lenguaje de gran escala (LLM), demostrando así su eficacia en el aprendizaje de representaciones video-lenguaje a gran escala. Específicamente, utilizamos un enfoque multi-escala para generar descripciones relacionadas con videos. Además, presentamos ViCLIP, un modelo de aprendizaje de representaciones video-texto basado en ViT-L. Aprendido en InternVid mediante aprendizaje contrastivo, este modelo demuestra un rendimiento líder en reconocimiento de acciones en modo zero-shot y un rendimiento competitivo en recuperación de videos. Más allá de tareas básicas de comprensión de video como reconocimiento y recuperación, nuestro conjunto de datos y modelo tienen aplicaciones amplias. Son particularmente beneficiosos para generar datos intercalados de video-texto para aprender un sistema de diálogo centrado en video, avanzando en la investigación de generación de video a texto y texto a video. Estos recursos propuestos proporcionan una herramienta para investigadores y profesionales interesados en la comprensión y generación multimodal de video.
English
This paper introduces InternVid, a large-scale video-centric multimodal dataset that enables learning powerful and transferable video-text representations for multimodal understanding and generation. The InternVid dataset contains over 7 million videos lasting nearly 760K hours, yielding 234M video clips accompanied by detailed descriptions of total 4.1B words. Our core contribution is to develop a scalable approach to autonomously build a high-quality video-text dataset with large language models (LLM), thereby showcasing its efficacy in learning video-language representation at scale. Specifically, we utilize a multi-scale approach to generate video-related descriptions. Furthermore, we introduce ViCLIP, a video-text representation learning model based on ViT-L. Learned on InternVid via contrastive learning, this model demonstrates leading zero-shot action recognition and competitive video retrieval performance. Beyond basic video understanding tasks like recognition and retrieval, our dataset and model have broad applications. They are particularly beneficial for generating interleaved video-text data for learning a video-centric dialogue system, advancing video-to-text and text-to-video generation research. These proposed resources provide a tool for researchers and practitioners interested in multimodal video understanding and generation.
PDF230December 15, 2024