Моделирование длинных мультимодальных видео на основе временного динамического контекста
Multimodal Long Video Modeling Based on Temporal Dynamic Context
April 14, 2025
Авторы: Haoran Hao, Jiaming Han, Yiyuan Zhang, Xiangyu Yue
cs.AI
Аннотация
Недавние достижения в области больших языковых моделей (LLM) привели к значительным прорывам в понимании видео. Однако существующие модели по-прежнему сталкиваются с трудностями при обработке длинных видео из-за ограничения на длину контекста LLM и огромного объема информации в видео. Хотя некоторые современные методы разработаны для понимания длинных видео, они часто теряют важную информацию в процессе сжатия токенов и испытывают трудности с дополнительными модальностями, такими как аудио. В данной работе мы предлагаем метод динамического кодирования длинных видео, использующий временные отношения между кадрами, под названием Temporal Dynamic Context (TDC). Во-первых, мы сегментируем видео на семантически согласованные сцены на основе сходства между кадрами, затем кодируем каждый кадр в токены с использованием визуально-аудио кодировщиков. Во-вторых, мы предлагаем новый компрессор временного контекста для сокращения количества токенов в каждом сегменте. В частности, мы используем Transformer на основе запросов для агрегирования видео, аудио и текстовых токенов инструкций в ограниченный набор токенов временного контекста. Наконец, мы передаем статические токены кадров и токены временного контекста в LLM для понимания видео. Кроме того, для обработки чрезвычайно длинных видео мы предлагаем стратегию цепочки рассуждений, не требующую обучения, которая постепенно извлекает ответы из нескольких сегментов видео. Эти промежуточные ответы служат частью процесса рассуждения и способствуют формированию окончательного ответа. Мы проводим обширные эксперименты на эталонных тестах для общего понимания видео и понимания аудио-видео, где наш метод демонстрирует высокую производительность. Код и модели доступны по адресу https://github.com/Hoar012/TDC-Video.
English
Recent advances in Large Language Models (LLMs) have led to significant
breakthroughs in video understanding. However, existing models still struggle
with long video processing due to the context length constraint of LLMs and the
vast amount of information within the video. Although some recent methods are
designed for long video understanding, they often lose crucial information
during token compression and struggle with additional modality like audio. In
this work, we propose a dynamic long video encoding method utilizing the
temporal relationship between frames, named Temporal Dynamic Context (TDC).
Firstly, we segment the video into semantically consistent scenes based on
inter-frame similarities, then encode each frame into tokens using visual-audio
encoders. Secondly, we propose a novel temporal context compressor to reduce
the number of tokens within each segment. Specifically, we employ a query-based
Transformer to aggregate video, audio, and instruction text tokens into a
limited set of temporal context tokens. Finally, we feed the static frame
tokens and the temporal context tokens into the LLM for video understanding.
Furthermore, to handle extremely long videos, we propose a training-free
chain-of-thought strategy that progressively extracts answers from multiple
video segments. These intermediate answers serve as part of the reasoning
process and contribute to the final answer. We conduct extensive experiments on
general video understanding and audio-video understanding benchmarks, where our
method demonstrates strong performance. The code and models are available at
https://github.com/Hoar012/TDC-Video.Summary
AI-Generated Summary