ChatPaper.aiChatPaper

Multimodale Modellering van Lange Video's Gebaseerd op Temporele Dynamische Context

Multimodal Long Video Modeling Based on Temporal Dynamic Context

April 14, 2025
Auteurs: Haoran Hao, Jiaming Han, Yiyuan Zhang, Xiangyu Yue
cs.AI

Samenvatting

Recente ontwikkelingen in Large Language Models (LLMs) hebben geleid tot significante doorbraken in videobegrip. Bestaande modellen hebben echter nog steeds moeite met het verwerken van lange video's vanwege de contextlengtebeperking van LLMs en de enorme hoeveelheid informatie in de video. Hoewel sommige recente methoden zijn ontworpen voor het begrijpen van lange video's, verliezen ze vaak cruciale informatie tijdens tokencompressie en hebben ze moeite met aanvullende modaliteiten zoals audio. In dit werk stellen we een dynamische methode voor voor het coderen van lange video's door gebruik te maken van de temporele relatie tussen frames, genaamd Temporal Dynamic Context (TDC). Ten eerste segmenteren we de video in semantisch consistente scènes op basis van inter-frame overeenkomsten, waarna we elk frame coderen in tokens met behulp van visueel-audiocoders. Ten tweede introduceren we een nieuwe temporele contextcompressor om het aantal tokens binnen elk segment te verminderen. Specifiek gebruiken we een query-gebaseerde Transformer om video-, audio- en instructieteksttokens samen te voegen tot een beperkte set temporele contexttokens. Ten slotte voeren we de statische frametokens en de temporele contexttokens in de LLM in voor videobegrip. Bovendien stellen we, om extreem lange video's te verwerken, een trainingsvrije chain-of-thought strategie voor die geleidelijk antwoorden uit meerdere videosegmenten extraheert. Deze tussenliggende antwoorden dienen als onderdeel van het redeneerproces en dragen bij aan het uiteindelijke antwoord. We voeren uitgebreide experimenten uit op benchmarks voor algemeen videobegrip en audio-videobegrip, waar onze methode sterke prestaties laat zien. De code en modellen zijn beschikbaar op https://github.com/Hoar012/TDC-Video.
English
Recent advances in Large Language Models (LLMs) have led to significant breakthroughs in video understanding. However, existing models still struggle with long video processing due to the context length constraint of LLMs and the vast amount of information within the video. Although some recent methods are designed for long video understanding, they often lose crucial information during token compression and struggle with additional modality like audio. In this work, we propose a dynamic long video encoding method utilizing the temporal relationship between frames, named Temporal Dynamic Context (TDC). Firstly, we segment the video into semantically consistent scenes based on inter-frame similarities, then encode each frame into tokens using visual-audio encoders. Secondly, we propose a novel temporal context compressor to reduce the number of tokens within each segment. Specifically, we employ a query-based Transformer to aggregate video, audio, and instruction text tokens into a limited set of temporal context tokens. Finally, we feed the static frame tokens and the temporal context tokens into the LLM for video understanding. Furthermore, to handle extremely long videos, we propose a training-free chain-of-thought strategy that progressively extracts answers from multiple video segments. These intermediate answers serve as part of the reasoning process and contribute to the final answer. We conduct extensive experiments on general video understanding and audio-video understanding benchmarks, where our method demonstrates strong performance. The code and models are available at https://github.com/Hoar012/TDC-Video.

Summary

AI-Generated Summary

PDF42April 16, 2025