InternVid: 멀티모달 이해 및 생성을 위한 대규모 비디오-텍스트 데이터셋
InternVid: A Large-scale Video-Text Dataset for Multimodal Understanding and Generation
July 13, 2023
저자: Yi Wang, Yinan He, Yizhuo Li, Kunchang Li, Jiashuo Yu, Xin Ma, Xinyuan Chen, Yaohui Wang, Ping Luo, Ziwei Liu, Yali Wang, Limin Wang, Yu Qiao
cs.AI
초록
본 논문은 다중모드 이해 및 생성을 위한 강력하고 전이 가능한 비디오-텍스트 표현 학습을 가능하게 하는 대규모 비디오 중심 다중모드 데이터셋인 InternVid를 소개합니다. InternVid 데이터셋은 총 760,000시간에 달하는 700만 개 이상의 비디오와 4.1B 단어의 상세 설명이 포함된 234M개의 비디오 클립으로 구성되어 있습니다. 우리의 핵심 기여는 대규모 언어 모델(LLM)을 활용하여 고품질 비디오-텍스트 데이터셋을 자율적으로 구축하는 확장 가능한 접근 방식을 개발함으로써, 대규모 비디오-언어 표현 학습의 효용성을 입증한 것입니다. 구체적으로, 우리는 비디오 관련 설명을 생성하기 위해 다중 스케일 접근 방식을 활용합니다. 또한, ViT-L 기반의 비디오-텍스트 표현 학습 모델인 ViCLIP을 소개합니다. 이 모델은 InternVid 데이터셋에서 대조 학습을 통해 학습되었으며, 선도적인 제로샷 동작 인식 및 경쟁력 있는 비디오 검색 성능을 보여줍니다. 인식 및 검색과 같은 기본적인 비디오 이해 작업을 넘어, 우리의 데이터셋과 모델은 다양한 응용 분야에 활용될 수 있습니다. 특히, 비디오 중심 대화 시스템 학습을 위한 인터리브된 비디오-텍스트 데이터 생성, 비디오-텍스트 및 텍스트-비디오 생성 연구 발전에 유용합니다. 이러한 제안된 리소스는 다중모드 비디오 이해 및 생성에 관심 있는 연구자와 실무자들에게 유용한 도구를 제공합니다.
English
This paper introduces InternVid, a large-scale video-centric multimodal
dataset that enables learning powerful and transferable video-text
representations for multimodal understanding and generation. The InternVid
dataset contains over 7 million videos lasting nearly 760K hours, yielding 234M
video clips accompanied by detailed descriptions of total 4.1B words. Our core
contribution is to develop a scalable approach to autonomously build a
high-quality video-text dataset with large language models (LLM), thereby
showcasing its efficacy in learning video-language representation at scale.
Specifically, we utilize a multi-scale approach to generate video-related
descriptions. Furthermore, we introduce ViCLIP, a video-text representation
learning model based on ViT-L. Learned on InternVid via contrastive learning,
this model demonstrates leading zero-shot action recognition and competitive
video retrieval performance. Beyond basic video understanding tasks like
recognition and retrieval, our dataset and model have broad applications. They
are particularly beneficial for generating interleaved video-text data for
learning a video-centric dialogue system, advancing video-to-text and
text-to-video generation research. These proposed resources provide a tool for
researchers and practitioners interested in multimodal video understanding and
generation.