ChatPaper.aiChatPaper

Modélisation de vidéos longues multimodales basée sur un contexte dynamique temporel

Multimodal Long Video Modeling Based on Temporal Dynamic Context

April 14, 2025
Auteurs: Haoran Hao, Jiaming Han, Yiyuan Zhang, Xiangyu Yue
cs.AI

Résumé

Les récentes avancées dans les modèles de langage de grande taille (LLMs) ont conduit à des percées significatives dans la compréhension vidéo. Cependant, les modèles existants rencontrent encore des difficultés avec le traitement de vidéos longues en raison de la contrainte de longueur de contexte des LLMs et de la quantité importante d'informations contenues dans la vidéo. Bien que certaines méthodes récentes soient conçues pour la compréhension de vidéos longues, elles perdent souvent des informations cruciales lors de la compression des tokens et peinent à intégrer des modalités supplémentaires comme l'audio. Dans ce travail, nous proposons une méthode d'encodage dynamique de vidéos longues exploitant la relation temporelle entre les images, nommée Contexte Temporel Dynamique (TDC). Tout d'abord, nous segmentons la vidéo en scènes sémantiquement cohérentes en fonction des similarités inter-images, puis encodons chaque image en tokens à l'aide d'encodeurs visuels-audio. Ensuite, nous proposons un compresseur de contexte temporel novateur pour réduire le nombre de tokens dans chaque segment. Plus précisément, nous utilisons un Transformer basé sur des requêtes pour agréger les tokens vidéo, audio et texte d'instruction en un ensemble limité de tokens de contexte temporel. Enfin, nous alimentons les tokens d'images statiques et les tokens de contexte temporel dans le LLM pour la compréhension vidéo. Par ailleurs, pour gérer des vidéos extrêmement longues, nous proposons une stratégie de chaîne de pensée sans apprentissage qui extrait progressivement des réponses à partir de multiples segments vidéo. Ces réponses intermédiaires servent de partie du processus de raisonnement et contribuent à la réponse finale. Nous menons des expériences approfondies sur des benchmarks de compréhension vidéo générale et de compréhension audio-vidéo, où notre méthode démontre de solides performances. Le code et les modèles sont disponibles à l'adresse https://github.com/Hoar012/TDC-Video.
English
Recent advances in Large Language Models (LLMs) have led to significant breakthroughs in video understanding. However, existing models still struggle with long video processing due to the context length constraint of LLMs and the vast amount of information within the video. Although some recent methods are designed for long video understanding, they often lose crucial information during token compression and struggle with additional modality like audio. In this work, we propose a dynamic long video encoding method utilizing the temporal relationship between frames, named Temporal Dynamic Context (TDC). Firstly, we segment the video into semantically consistent scenes based on inter-frame similarities, then encode each frame into tokens using visual-audio encoders. Secondly, we propose a novel temporal context compressor to reduce the number of tokens within each segment. Specifically, we employ a query-based Transformer to aggregate video, audio, and instruction text tokens into a limited set of temporal context tokens. Finally, we feed the static frame tokens and the temporal context tokens into the LLM for video understanding. Furthermore, to handle extremely long videos, we propose a training-free chain-of-thought strategy that progressively extracts answers from multiple video segments. These intermediate answers serve as part of the reasoning process and contribute to the final answer. We conduct extensive experiments on general video understanding and audio-video understanding benchmarks, where our method demonstrates strong performance. The code and models are available at https://github.com/Hoar012/TDC-Video.

Summary

AI-Generated Summary

PDF42April 16, 2025