InternVid: Um Grande Conjunto de Dados Vídeo-Texto para Compreensão e Geração Multimodal

Resumo

Este artigo apresenta o InternVid, um conjunto de dados multimodal em grande escala centrado em vídeos, que possibilita a aprendizagem de representações poderosas e transferíveis de vídeo-texto para compreensão e geração multimodal. O conjunto de dados InternVid contém mais de 7 milhões de vídeos, totalizando cerca de 760 mil horas, resultando em 234 milhões de clipes de vídeo acompanhados por descrições detalhadas que somam 4,1 bilhões de palavras. Nossa principal contribuição é o desenvolvimento de uma abordagem escalável para construir de forma autônoma um conjunto de dados vídeo-texto de alta qualidade com modelos de linguagem de grande escala (LLM), demonstrando assim sua eficácia na aprendizagem de representações vídeo-linguagem em larga escala. Especificamente, utilizamos uma abordagem multiescala para gerar descrições relacionadas a vídeos. Além disso, introduzimos o ViCLIP, um modelo de aprendizagem de representação vídeo-texto baseado no ViT-L. Aprendido no InternVid por meio de aprendizagem contrastiva, este modelo demonstra reconhecimento de ação zero-shot líder e desempenho competitivo em recuperação de vídeos. Além das tarefas básicas de compreensão de vídeo, como reconhecimento e recuperação, nosso conjunto de dados e modelo têm amplas aplicações. Eles são particularmente benéficos para a geração de dados intercalados vídeo-texto para a aprendizagem de um sistema de diálogo centrado em vídeo, avançando a pesquisa em geração vídeo-para-texto e texto-para-vídeo. Esses recursos propostos fornecem uma ferramenta para pesquisadores e profissionais interessados em compreensão e geração multimodal de vídeo.

English

This paper introduces InternVid, a large-scale video-centric multimodal dataset that enables learning powerful and transferable video-text representations for multimodal understanding and generation. The InternVid dataset contains over 7 million videos lasting nearly 760K hours, yielding 234M video clips accompanied by detailed descriptions of total 4.1B words. Our core contribution is to develop a scalable approach to autonomously build a high-quality video-text dataset with large language models (LLM), thereby showcasing its efficacy in learning video-language representation at scale. Specifically, we utilize a multi-scale approach to generate video-related descriptions. Furthermore, we introduce ViCLIP, a video-text representation learning model based on ViT-L. Learned on InternVid via contrastive learning, this model demonstrates leading zero-shot action recognition and competitive video retrieval performance. Beyond basic video understanding tasks like recognition and retrieval, our dataset and model have broad applications. They are particularly beneficial for generating interleaved video-text data for learning a video-centric dialogue system, advancing video-to-text and text-to-video generation research. These proposed resources provide a tool for researchers and practitioners interested in multimodal video understanding and generation.

InternVid: Um Grande Conjunto de Dados Vídeo-Texto para Compreensão e Geração Multimodal

InternVid: A Large-scale Video-Text Dataset for Multimodal Understanding and Generation

Resumo

Support