Modelado de Videos Largos Multimodales Basado en Contexto Dinámico Temporal
Multimodal Long Video Modeling Based on Temporal Dynamic Context
April 14, 2025
Autores: Haoran Hao, Jiaming Han, Yiyuan Zhang, Xiangyu Yue
cs.AI
Resumen
Los recientes avances en los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han llevado a avances significativos en la comprensión de videos. Sin embargo, los modelos existentes aún enfrentan dificultades en el procesamiento de videos largos debido a la limitación en la longitud del contexto de los LLMs y la gran cantidad de información presente en el video. Aunque algunos métodos recientes están diseñados para la comprensión de videos largos, a menudo pierden información crucial durante la compresión de tokens y tienen dificultades con modalidades adicionales como el audio. En este trabajo, proponemos un método dinámico de codificación de videos largos que utiliza la relación temporal entre los fotogramas, denominado Contexto Temporal Dinámico (TDC, por sus siglas en inglés). En primer lugar, segmentamos el video en escenas semánticamente consistentes basándonos en las similitudes entre fotogramas, luego codificamos cada fotograma en tokens utilizando codificadores visuales y de audio. En segundo lugar, proponemos un novedoso compresor de contexto temporal para reducir el número de tokens dentro de cada segmento. Específicamente, empleamos un Transformer basado en consultas para agregar tokens de video, audio y texto de instrucción en un conjunto limitado de tokens de contexto temporal. Finalmente, alimentamos los tokens estáticos de los fotogramas y los tokens de contexto temporal en el LLM para la comprensión del video. Además, para manejar videos extremadamente largos, proponemos una estrategia de cadena de pensamiento sin entrenamiento que extrae progresivamente respuestas de múltiples segmentos de video. Estas respuestas intermedias sirven como parte del proceso de razonamiento y contribuyen a la respuesta final. Realizamos extensos experimentos en puntos de referencia de comprensión general de video y comprensión de audio-video, donde nuestro método demuestra un rendimiento sólido. El código y los modelos están disponibles en https://github.com/Hoar012/TDC-Video.
English
Recent advances in Large Language Models (LLMs) have led to significant
breakthroughs in video understanding. However, existing models still struggle
with long video processing due to the context length constraint of LLMs and the
vast amount of information within the video. Although some recent methods are
designed for long video understanding, they often lose crucial information
during token compression and struggle with additional modality like audio. In
this work, we propose a dynamic long video encoding method utilizing the
temporal relationship between frames, named Temporal Dynamic Context (TDC).
Firstly, we segment the video into semantically consistent scenes based on
inter-frame similarities, then encode each frame into tokens using visual-audio
encoders. Secondly, we propose a novel temporal context compressor to reduce
the number of tokens within each segment. Specifically, we employ a query-based
Transformer to aggregate video, audio, and instruction text tokens into a
limited set of temporal context tokens. Finally, we feed the static frame
tokens and the temporal context tokens into the LLM for video understanding.
Furthermore, to handle extremely long videos, we propose a training-free
chain-of-thought strategy that progressively extracts answers from multiple
video segments. These intermediate answers serve as part of the reasoning
process and contribute to the final answer. We conduct extensive experiments on
general video understanding and audio-video understanding benchmarks, where our
method demonstrates strong performance. The code and models are available at
https://github.com/Hoar012/TDC-Video.Summary
AI-Generated Summary