InternVideo2 : Mise à l'échelle des modèles de base vidéo pour la compréhension multimodale des vidéos

papers.abstract

Nous présentons InternVideo2, un nouveau modèle de base pour la vidéo (ViFM) qui atteint des performances de pointe en reconnaissance d'actions, tâches vidéo-texte et dialogue centré sur la vidéo. Notre approche utilise un paradigme d'entraînement progressif qui unifie différents cadres d'apprentissage auto-supervisé ou faiblement supervisé, incluant la reconstruction de tokens vidéo masqués, l'apprentissage contrastif intermodal et la prédiction du token suivant. Différentes étapes d'entraînement guident notre modèle pour capturer différents niveaux de structure et d'information sémantique à travers diverses tâches prétextes. Au niveau des données, nous privilégions la cohérence spatiotemporelle en segmentant sémantiquement les vidéos et en générant des légendes vidéo-audio-parole. Cela améliore l'alignement entre la vidéo et le texte. Nous augmentons à la fois la taille des données et du modèle pour notre InternVideo2. À travers des expériences approfondies, nous validons nos conceptions et démontrons des performances de pointe sur plus de 60 tâches vidéo et audio. Notamment, notre modèle surpasse les autres sur divers benchmarks de légendage, dialogue et compréhension de vidéos longues, mettant en avant sa capacité à raisonner et à comprendre des contextes temporels étendus. Le code et les modèles sont disponibles à l'adresse https://github.com/OpenGVLab/InternVideo2/.

English

We introduce InternVideo2, a new video foundation model (ViFM) that achieves the state-of-the-art performance in action recognition, video-text tasks, and video-centric dialogue. Our approach employs a progressive training paradigm that unifies the different self- or weakly-supervised learning frameworks of masked video token reconstruction, cross-modal contrastive learning, and next token prediction. Different training stages would guide our model to capture different levels of structure and semantic information through different pretext tasks. At the data level, we prioritize the spatiotemporal consistency by semantically segmenting videos and generating video-audio-speech captions. This improves the alignment between video and text. We scale both data and model size for our InternVideo2. Through extensive experiments, we validate our designs and demonstrate the state-of-the-art performance on over 60 video and audio tasks. Notably, our model outperforms others on various video-related captioning, dialogue, and long video understanding benchmarks, highlighting its ability to reason and comprehend long temporal contexts. Code and models are available at https://github.com/OpenGVLab/InternVideo2/.

InternVideo2 : Mise à l'échelle des modèles de base vidéo pour la compréhension multimodale des vidéos

InternVideo2: Scaling Video Foundation Models for Multimodal Video Understanding

papers.abstract

Support