TRACE: Временная привязка видео с помощью моделирования причинно-следственных событий

Аннотация

Видео временное закрепление (VTG) является ключевой способностью для моделей понимания видео и играет важную роль в последующих задачах, таких как просмотр и редактирование видео. Для эффективной обработки различных задач одновременно и обеспечения нулевого прогнозирования, наблюдается растущий тренд в использовании видео LLMs для задач VTG. Однако текущие методы на основе видео LLM полагаются исключительно на генерацию естественного языка, лишаясь способности моделировать четкую структуру, присущую видео, что ограничивает их эффективность в решении задач VTG. Для решения этой проблемы в данной статье впервые формально представлена модель фреймворка причинно-следственных событий, которая представляет видео как последовательности событий и предсказывает текущее событие, используя предыдущие события, видеовходы и текстовые инструкции. Каждое событие состоит из трех компонентов: временных меток, значимых оценок и текстовых подписей. Затем мы предлагаем новый задачно-переплетенный видео LLM под названием TRACE для эффективной реализации моделирования причинно-следственных событий на практике. TRACE обрабатывает визуальные кадры, временные метки, значимые оценки и текст как отдельные задачи, используя различные кодировщики и декодирующие головы для каждой из них. Токены задач упорядочены в переплетенной последовательности в соответствии с формулировкой моделирования причинно-следственных событий. Обширные эксперименты на различных задачах и наборах данных VTG демонстрируют превосходное качество работы TRACE по сравнению с передовыми видео LLMs. Наша модель и код доступны по адресу https://github.com/gyxxyg/TRACE.

English

Video Temporal Grounding (VTG) is a crucial capability for video understanding models and plays a vital role in downstream tasks such as video browsing and editing. To effectively handle various tasks simultaneously and enable zero-shot prediction, there is a growing trend in employing video LLMs for VTG tasks. However, current video LLM-based methods rely exclusively on natural language generation, lacking the ability to model the clear structure inherent in videos, which restricts their effectiveness in tackling VTG tasks. To address this issue, this paper first formally introduces causal event modeling framework, which represents videos as sequences of events, and predict the current event using previous events, video inputs, and textural instructions. Each event consists of three components: timestamps, salient scores, and textual captions. We then propose a novel task-interleaved video LLM called TRACE to effectively implement the causal event modeling framework in practice. The TRACE processes visual frames, timestamps, salient scores, and text as distinct tasks, employing various encoders and decoding heads for each. Task tokens are arranged in an interleaved sequence according to the causal event modeling framework's formulation. Extensive experiments on various VTG tasks and datasets demonstrate the superior performance of TRACE compared to state-of-the-art video LLMs. Our model and code are available at https://github.com/gyxxyg/TRACE.

TRACE: Временная привязка видео с помощью моделирования причинно-следственных событий

TRACE: Temporal Grounding Video LLM via Causal Event Modeling

Аннотация

Support