Multimodale Langzeit-Videomodellierung basierend auf dynamischem zeitlichem Kontext
Multimodal Long Video Modeling Based on Temporal Dynamic Context
April 14, 2025
Autoren: Haoran Hao, Jiaming Han, Yiyuan Zhang, Xiangyu Yue
cs.AI
Zusammenfassung
Jüngste Fortschritte bei Large Language Models (LLMs) haben zu bedeutenden Durchbrüchen im Bereich des Videoverständnisses geführt. Dennoch kämpfen bestehende Modelle nach wie vor mit der Verarbeitung langer Videos aufgrund der Kontextlängenbegrenzung von LLMs und der enormen Informationsmenge innerhalb des Videos. Obwohl einige neuere Methoden für das Verständnis langer Videos entwickelt wurden, verlieren sie oft entscheidende Informationen während der Token-Komprimierung und haben Schwierigkeiten mit zusätzlichen Modalitäten wie Audio. In dieser Arbeit schlagen wir eine dynamische Methode zur Kodierung langer Videos vor, die die zeitliche Beziehung zwischen den Bildern nutzt, genannt Temporal Dynamic Context (TDC). Zunächst segmentieren wir das Video in semantisch konsistente Szenen basierend auf Ähnlichkeiten zwischen den Bildern und kodieren dann jedes Bild mithilfe von visuellen und auditiven Encodern in Tokens. Anschließend schlagen wir einen neuartigen temporalen Kontextkompressor vor, um die Anzahl der Tokens innerhalb jedes Segments zu reduzieren. Konkret verwenden wir einen Query-basierten Transformer, um Video-, Audio- und Instruktionstext-Tokens in eine begrenzte Menge von temporalen Kontext-Tokens zu aggregieren. Schließlich speisen wir die statischen Bild-Tokens und die temporalen Kontext-Tokens in das LLM ein, um das Video zu verstehen. Darüber hinaus schlagen wir für extrem lange Videos eine trainingsfreie Chain-of-Thought-Strategie vor, die schrittweise Antworten aus mehreren Videosegmenten extrahiert. Diese Zwischenantworten dienen als Teil des Denkprozesses und tragen zur endgültigen Antwort bei. Wir führen umfangreiche Experimente auf Benchmarks für allgemeines Videoverständnis und Audio-Video-Verständnis durch, bei denen unsere Methode eine starke Leistung zeigt. Der Code und die Modelle sind unter https://github.com/Hoar012/TDC-Video verfügbar.
English
Recent advances in Large Language Models (LLMs) have led to significant
breakthroughs in video understanding. However, existing models still struggle
with long video processing due to the context length constraint of LLMs and the
vast amount of information within the video. Although some recent methods are
designed for long video understanding, they often lose crucial information
during token compression and struggle with additional modality like audio. In
this work, we propose a dynamic long video encoding method utilizing the
temporal relationship between frames, named Temporal Dynamic Context (TDC).
Firstly, we segment the video into semantically consistent scenes based on
inter-frame similarities, then encode each frame into tokens using visual-audio
encoders. Secondly, we propose a novel temporal context compressor to reduce
the number of tokens within each segment. Specifically, we employ a query-based
Transformer to aggregate video, audio, and instruction text tokens into a
limited set of temporal context tokens. Finally, we feed the static frame
tokens and the temporal context tokens into the LLM for video understanding.
Furthermore, to handle extremely long videos, we propose a training-free
chain-of-thought strategy that progressively extracts answers from multiple
video segments. These intermediate answers serve as part of the reasoning
process and contribute to the final answer. We conduct extensive experiments on
general video understanding and audio-video understanding benchmarks, where our
method demonstrates strong performance. The code and models are available at
https://github.com/Hoar012/TDC-Video.Summary
AI-Generated Summary