VideoLLM знает, когда говорить: улучшение понимания видео с учетом времени с помощью формата взаимодействия видео-текст.
VideoLLM Knows When to Speak: Enhancing Time-Sensitive Video Comprehension with Video-Text Duet Interaction Format
November 27, 2024
Авторы: Yueqian Wang, Xiaojun Meng, Yuxuan Wang, Jianxin Liang, Jiansheng Wei, Huishuai Zhang, Dongyan Zhao
cs.AI
Аннотация
Недавние исследования по видео-моделям с широким языковым контекстом (VideoLLM) в основном сосредотачиваются на архитектурах моделей и наборах данных для обучения, оставляя взаимодействие между пользователем и моделью недостаточно исследованным. В существующих работах пользователи часто взаимодействуют с VideoLLM, используя весь видеоролик и запрос в качестве входных данных, после чего модель генерирует ответ. Такой формат взаимодействия ограничивает применение VideoLLM в сценариях, таких как понимание прямых трансляций, где видеоролики не заканчиваются, и требуются ответы в реальном времени, а также приводит к неудовлетворительной производительности при выполнении задач, требующих локализации видеоотрывков. В данной статье мы сосредотачиваемся на формате взаимодействия видео-текст. Этот формат взаимодействия характеризуется непрерывным воспроизведением видео, и как пользователь, так и модель могут вставлять свои текстовые сообщения в любой момент во время воспроизведения видео. Когда текстовое сообщение завершается, видео продолжает воспроизводиться, подобно альтернативе двух исполнителей в дуэте. Мы создаем MMDuetIT, набор данных для обучения видео-текстовых моделей, разработанный для адаптации VideoLLM к формату взаимодействия видео-текст. Мы также представляем задачу множественного ответа на вопросы по видео (MAGQA) для оценки способности VideoLLM к реагированию в реальном времени. Обученный на MMDuetIT, MMDuet демонстрирует, что принятие формата взаимодействия видео-текст позволяет модели значительно улучшить результаты в различных задачах, требующих выполнения в ограниченные сроки (76% CIDEr при плотном описании видеороликов YouCook2, 90% mAP при обнаружении высокоценных моментов в QVHighlights и 25% [email protected] при временной локализации видеоотрывков в Charades-STA) с минимальными усилиями по обучению, а также позволяет VideoLLM отвечать в реальном времени во время воспроизведения видео. Код, данные и демонстрация доступны по ссылке: https://github.com/yellow-binary-tree/MMDuet.
English
Recent researches on video large language models (VideoLLM) predominantly
focus on model architectures and training datasets, leaving the interaction
format between the user and the model under-explored. In existing works, users
often interact with VideoLLMs by using the entire video and a query as input,
after which the model generates a response. This interaction format constrains
the application of VideoLLMs in scenarios such as live-streaming comprehension
where videos do not end and responses are required in a real-time manner, and
also results in unsatisfactory performance on time-sensitive tasks that
requires localizing video segments. In this paper, we focus on a video-text
duet interaction format. This interaction format is characterized by the
continuous playback of the video, and both the user and the model can insert
their text messages at any position during the video playback. When a text
message ends, the video continues to play, akin to the alternative of two
performers in a duet. We construct MMDuetIT, a video-text training dataset
designed to adapt VideoLLMs to video-text duet interaction format. We also
introduce the Multi-Answer Grounded Video Question Answering (MAGQA) task to
benchmark the real-time response ability of VideoLLMs. Trained on MMDuetIT,
MMDuet demonstrates that adopting the video-text duet interaction format
enables the model to achieve significant improvements in various time-sensitive
tasks (76% CIDEr on YouCook2 dense video captioning, 90\% mAP on QVHighlights
highlight detection and 25% [email protected] on Charades-STA temporal video grounding)
with minimal training efforts, and also enable VideoLLMs to reply in a
real-time manner as the video plays. Code, data and demo are available at:
https://github.com/yellow-binary-tree/MMDuet.Summary
AI-Generated Summary