InternVideo2 : Mise à l'échelle des modèles de base vidéo pour la compréhension multimodale des vidéos
InternVideo2: Scaling Video Foundation Models for Multimodal Video Understanding
March 22, 2024
Auteurs: Yi Wang, Kunchang Li, Xinhao Li, Jiashuo Yu, Yinan He, Guo Chen, Baoqi Pei, Rongkun Zheng, Jilan Xu, Zun Wang, Yansong Shi, Tianxiang Jiang, Songze Li, Hongjie Zhang, Yifei Huang, Yu Qiao, Yali Wang, Limin Wang
cs.AI
Résumé
Nous présentons InternVideo2, un nouveau modèle de base pour la vidéo (ViFM) qui atteint des performances de pointe en reconnaissance d'actions, tâches vidéo-texte et dialogue centré sur la vidéo. Notre approche utilise un paradigme d'entraînement progressif qui unifie différents cadres d'apprentissage auto-supervisé ou faiblement supervisé, incluant la reconstruction de tokens vidéo masqués, l'apprentissage contrastif intermodal et la prédiction du token suivant. Différentes étapes d'entraînement guident notre modèle pour capturer différents niveaux de structure et d'information sémantique à travers diverses tâches prétextes. Au niveau des données, nous privilégions la cohérence spatiotemporelle en segmentant sémantiquement les vidéos et en générant des légendes vidéo-audio-parole. Cela améliore l'alignement entre la vidéo et le texte. Nous augmentons à la fois la taille des données et du modèle pour notre InternVideo2. À travers des expériences approfondies, nous validons nos conceptions et démontrons des performances de pointe sur plus de 60 tâches vidéo et audio. Notamment, notre modèle surpasse les autres sur divers benchmarks de légendage, dialogue et compréhension de vidéos longues, mettant en avant sa capacité à raisonner et à comprendre des contextes temporels étendus. Le code et les modèles sont disponibles à l'adresse https://github.com/OpenGVLab/InternVideo2/.
English
We introduce InternVideo2, a new video foundation model (ViFM) that achieves
the state-of-the-art performance in action recognition, video-text tasks, and
video-centric dialogue. Our approach employs a progressive training paradigm
that unifies the different self- or weakly-supervised learning frameworks of
masked video token reconstruction, cross-modal contrastive learning, and next
token prediction. Different training stages would guide our model to capture
different levels of structure and semantic information through different
pretext tasks. At the data level, we prioritize the spatiotemporal consistency
by semantically segmenting videos and generating video-audio-speech captions.
This improves the alignment between video and text. We scale both data and
model size for our InternVideo2. Through extensive experiments, we validate our
designs and demonstrate the state-of-the-art performance on over 60 video and
audio tasks. Notably, our model outperforms others on various video-related
captioning, dialogue, and long video understanding benchmarks, highlighting its
ability to reason and comprehend long temporal contexts. Code and models are
available at https://github.com/OpenGVLab/InternVideo2/.Summary
AI-Generated Summary