TRACE: Временная привязка видео с помощью моделирования причинно-следственных событий
TRACE: Temporal Grounding Video LLM via Causal Event Modeling
October 8, 2024
Авторы: Yongxin Guo, Jingyu Liu, Mingda Li, Xiaoying Tang, Qingbin Liu, Xi Chen
cs.AI
Аннотация
Видео временное закрепление (VTG) является ключевой способностью для моделей понимания видео и играет важную роль в последующих задачах, таких как просмотр и редактирование видео. Для эффективной обработки различных задач одновременно и обеспечения нулевого прогнозирования, наблюдается растущий тренд в использовании видео LLMs для задач VTG. Однако текущие методы на основе видео LLM полагаются исключительно на генерацию естественного языка, лишаясь способности моделировать четкую структуру, присущую видео, что ограничивает их эффективность в решении задач VTG. Для решения этой проблемы в данной статье впервые формально представлена модель фреймворка причинно-следственных событий, которая представляет видео как последовательности событий и предсказывает текущее событие, используя предыдущие события, видеовходы и текстовые инструкции. Каждое событие состоит из трех компонентов: временных меток, значимых оценок и текстовых подписей. Затем мы предлагаем новый задачно-переплетенный видео LLM под названием TRACE для эффективной реализации моделирования причинно-следственных событий на практике. TRACE обрабатывает визуальные кадры, временные метки, значимые оценки и текст как отдельные задачи, используя различные кодировщики и декодирующие головы для каждой из них. Токены задач упорядочены в переплетенной последовательности в соответствии с формулировкой моделирования причинно-следственных событий. Обширные эксперименты на различных задачах и наборах данных VTG демонстрируют превосходное качество работы TRACE по сравнению с передовыми видео LLMs. Наша модель и код доступны по адресу https://github.com/gyxxyg/TRACE.
English
Video Temporal Grounding (VTG) is a crucial capability for video
understanding models and plays a vital role in downstream tasks such as video
browsing and editing. To effectively handle various tasks simultaneously and
enable zero-shot prediction, there is a growing trend in employing video LLMs
for VTG tasks. However, current video LLM-based methods rely exclusively on
natural language generation, lacking the ability to model the clear structure
inherent in videos, which restricts their effectiveness in tackling VTG tasks.
To address this issue, this paper first formally introduces causal event
modeling framework, which represents videos as sequences of events, and predict
the current event using previous events, video inputs, and textural
instructions. Each event consists of three components: timestamps, salient
scores, and textual captions. We then propose a novel task-interleaved video
LLM called TRACE to effectively implement the causal event modeling framework
in practice. The TRACE processes visual frames, timestamps, salient scores, and
text as distinct tasks, employing various encoders and decoding heads for each.
Task tokens are arranged in an interleaved sequence according to the causal
event modeling framework's formulation. Extensive experiments on various VTG
tasks and datasets demonstrate the superior performance of TRACE compared to
state-of-the-art video LLMs. Our model and code are available at
https://github.com/gyxxyg/TRACE.Summary
AI-Generated Summary