ChatPaper.aiChatPaper

Modelado de Videos Largos Multimodales Basado en Contexto Dinámico Temporal

Multimodal Long Video Modeling Based on Temporal Dynamic Context

April 14, 2025
Autores: Haoran Hao, Jiaming Han, Yiyuan Zhang, Xiangyu Yue
cs.AI

Resumen

Los recientes avances en los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han llevado a avances significativos en la comprensión de videos. Sin embargo, los modelos existentes aún enfrentan dificultades en el procesamiento de videos largos debido a la limitación en la longitud del contexto de los LLMs y la gran cantidad de información presente en el video. Aunque algunos métodos recientes están diseñados para la comprensión de videos largos, a menudo pierden información crucial durante la compresión de tokens y tienen dificultades con modalidades adicionales como el audio. En este trabajo, proponemos un método dinámico de codificación de videos largos que utiliza la relación temporal entre los fotogramas, denominado Contexto Temporal Dinámico (TDC, por sus siglas en inglés). En primer lugar, segmentamos el video en escenas semánticamente consistentes basándonos en las similitudes entre fotogramas, luego codificamos cada fotograma en tokens utilizando codificadores visuales y de audio. En segundo lugar, proponemos un novedoso compresor de contexto temporal para reducir el número de tokens dentro de cada segmento. Específicamente, empleamos un Transformer basado en consultas para agregar tokens de video, audio y texto de instrucción en un conjunto limitado de tokens de contexto temporal. Finalmente, alimentamos los tokens estáticos de los fotogramas y los tokens de contexto temporal en el LLM para la comprensión del video. Además, para manejar videos extremadamente largos, proponemos una estrategia de cadena de pensamiento sin entrenamiento que extrae progresivamente respuestas de múltiples segmentos de video. Estas respuestas intermedias sirven como parte del proceso de razonamiento y contribuyen a la respuesta final. Realizamos extensos experimentos en puntos de referencia de comprensión general de video y comprensión de audio-video, donde nuestro método demuestra un rendimiento sólido. El código y los modelos están disponibles en https://github.com/Hoar012/TDC-Video.
English
Recent advances in Large Language Models (LLMs) have led to significant breakthroughs in video understanding. However, existing models still struggle with long video processing due to the context length constraint of LLMs and the vast amount of information within the video. Although some recent methods are designed for long video understanding, they often lose crucial information during token compression and struggle with additional modality like audio. In this work, we propose a dynamic long video encoding method utilizing the temporal relationship between frames, named Temporal Dynamic Context (TDC). Firstly, we segment the video into semantically consistent scenes based on inter-frame similarities, then encode each frame into tokens using visual-audio encoders. Secondly, we propose a novel temporal context compressor to reduce the number of tokens within each segment. Specifically, we employ a query-based Transformer to aggregate video, audio, and instruction text tokens into a limited set of temporal context tokens. Finally, we feed the static frame tokens and the temporal context tokens into the LLM for video understanding. Furthermore, to handle extremely long videos, we propose a training-free chain-of-thought strategy that progressively extracts answers from multiple video segments. These intermediate answers serve as part of the reasoning process and contribute to the final answer. We conduct extensive experiments on general video understanding and audio-video understanding benchmarks, where our method demonstrates strong performance. The code and models are available at https://github.com/Hoar012/TDC-Video.

Summary

AI-Generated Summary

PDF42April 16, 2025