ChatPaper.aiChatPaper

InternVideo2: 멀티모달 비디오 이해를 위한 비디오 파운데이션 모델 스케일링

InternVideo2: Scaling Video Foundation Models for Multimodal Video Understanding

March 22, 2024
저자: Yi Wang, Kunchang Li, Xinhao Li, Jiashuo Yu, Yinan He, Guo Chen, Baoqi Pei, Rongkun Zheng, Jilan Xu, Zun Wang, Yansong Shi, Tianxiang Jiang, Songze Li, Hongjie Zhang, Yifei Huang, Yu Qiao, Yali Wang, Limin Wang
cs.AI

초록

우리는 새로운 비디오 기반 모델(ViFM)인 InternVideo2를 소개합니다. 이 모델은 행동 인식, 비디오-텍스트 작업, 그리고 비디오 중심 대화에서 최첨단 성능을 달성합니다. 우리의 접근 방식은 마스킹된 비디오 토큰 재구성, 크로스 모달 대조 학습, 그리고 다음 토큰 예측과 같은 다양한 자기 또는 약한 감독 학습 프레임워크를 통합하는 점진적인 훈련 패러다임을 채택합니다. 다양한 훈련 단계는 우리 모델이 다양한 사전 작업을 통해 구조와 의미 정보의 다른 수준을 포착하도록 안내합니다. 데이터 수준에서는 비디오를 의미적으로 분할하고 비디오-오디오-음성 캡션을 생성함으로써 시공간적 일관성을 우선시합니다. 이는 비디오와 텍스트 간의 정렬을 개선합니다. 우리는 InternVideo2를 위해 데이터와 모델 크기를 모두 확장했습니다. 광범위한 실험을 통해 우리의 설계를 검증하고 60개 이상의 비디오 및 오디오 작업에서 최첨단 성능을 입증했습니다. 특히, 우리의 모델은 다양한 비디오 관련 캡션, 대화, 그리고 긴 비디오 이해 벤치마크에서 다른 모델들을 능가하며, 긴 시간적 맥락을 추론하고 이해하는 능력을 강조합니다. 코드와 모델은 https://github.com/OpenGVLab/InternVideo2/에서 확인할 수 있습니다.
English
We introduce InternVideo2, a new video foundation model (ViFM) that achieves the state-of-the-art performance in action recognition, video-text tasks, and video-centric dialogue. Our approach employs a progressive training paradigm that unifies the different self- or weakly-supervised learning frameworks of masked video token reconstruction, cross-modal contrastive learning, and next token prediction. Different training stages would guide our model to capture different levels of structure and semantic information through different pretext tasks. At the data level, we prioritize the spatiotemporal consistency by semantically segmenting videos and generating video-audio-speech captions. This improves the alignment between video and text. We scale both data and model size for our InternVideo2. Through extensive experiments, we validate our designs and demonstrate the state-of-the-art performance on over 60 video and audio tasks. Notably, our model outperforms others on various video-related captioning, dialogue, and long video understanding benchmarks, highlighting its ability to reason and comprehend long temporal contexts. Code and models are available at https://github.com/OpenGVLab/InternVideo2/.

Summary

AI-Generated Summary

PDF264December 15, 2024