Modelagem de Vídeos Longos Multimodais Baseada em Contexto Dinâmico Temporal
Multimodal Long Video Modeling Based on Temporal Dynamic Context
April 14, 2025
Autores: Haoran Hao, Jiaming Han, Yiyuan Zhang, Xiangyu Yue
cs.AI
Resumo
Avanços recentes em Modelos de Linguagem de Grande Escala (LLMs) levaram a descobertas significativas na compreensão de vídeos. No entanto, os modelos existentes ainda enfrentam dificuldades no processamento de vídeos longos devido à limitação do comprimento do contexto dos LLMs e à vasta quantidade de informações contidas no vídeo. Embora alguns métodos recentes tenham sido projetados para a compreensão de vídeos longos, eles frequentemente perdem informações cruciais durante a compressão de tokens e têm dificuldades com modalidades adicionais, como áudio. Neste trabalho, propomos um método dinâmico de codificação de vídeos longos que utiliza a relação temporal entre os quadros, denominado Contexto Temporal Dinâmico (TDC). Primeiramente, segmentamos o vídeo em cenas semanticamente consistentes com base nas similaridades entre os quadros, em seguida, codificamos cada quadro em tokens usando codificadores visuais e de áudio. Em segundo lugar, propomos um novo compressor de contexto temporal para reduzir o número de tokens em cada segmento. Especificamente, empregamos um Transformer baseado em consultas para agregar tokens de vídeo, áudio e texto de instrução em um conjunto limitado de tokens de contexto temporal. Por fim, alimentamos os tokens estáticos dos quadros e os tokens de contexto temporal no LLM para a compreensão do vídeo. Além disso, para lidar com vídeos extremamente longos, propomos uma estratégia de cadeia de pensamento sem treinamento que extrai progressivamente respostas de múltiplos segmentos de vídeo. Essas respostas intermediárias servem como parte do processo de raciocínio e contribuem para a resposta final. Realizamos extensos experimentos em benchmarks de compreensão geral de vídeos e de compreensão de áudio e vídeo, onde nosso método demonstra um forte desempenho. O código e os modelos estão disponíveis em https://github.com/Hoar012/TDC-Video.
English
Recent advances in Large Language Models (LLMs) have led to significant
breakthroughs in video understanding. However, existing models still struggle
with long video processing due to the context length constraint of LLMs and the
vast amount of information within the video. Although some recent methods are
designed for long video understanding, they often lose crucial information
during token compression and struggle with additional modality like audio. In
this work, we propose a dynamic long video encoding method utilizing the
temporal relationship between frames, named Temporal Dynamic Context (TDC).
Firstly, we segment the video into semantically consistent scenes based on
inter-frame similarities, then encode each frame into tokens using visual-audio
encoders. Secondly, we propose a novel temporal context compressor to reduce
the number of tokens within each segment. Specifically, we employ a query-based
Transformer to aggregate video, audio, and instruction text tokens into a
limited set of temporal context tokens. Finally, we feed the static frame
tokens and the temporal context tokens into the LLM for video understanding.
Furthermore, to handle extremely long videos, we propose a training-free
chain-of-thought strategy that progressively extracts answers from multiple
video segments. These intermediate answers serve as part of the reasoning
process and contribute to the final answer. We conduct extensive experiments on
general video understanding and audio-video understanding benchmarks, where our
method demonstrates strong performance. The code and models are available at
https://github.com/Hoar012/TDC-Video.Summary
AI-Generated Summary