VideoLLM знает, когда говорить: улучшение понимания видео с учетом времени с помощью формата взаимодействия видео-текст.

Аннотация

Недавние исследования по видео-моделям с широким языковым контекстом (VideoLLM) в основном сосредотачиваются на архитектурах моделей и наборах данных для обучения, оставляя взаимодействие между пользователем и моделью недостаточно исследованным. В существующих работах пользователи часто взаимодействуют с VideoLLM, используя весь видеоролик и запрос в качестве входных данных, после чего модель генерирует ответ. Такой формат взаимодействия ограничивает применение VideoLLM в сценариях, таких как понимание прямых трансляций, где видеоролики не заканчиваются, и требуются ответы в реальном времени, а также приводит к неудовлетворительной производительности при выполнении задач, требующих локализации видеоотрывков. В данной статье мы сосредотачиваемся на формате взаимодействия видео-текст. Этот формат взаимодействия характеризуется непрерывным воспроизведением видео, и как пользователь, так и модель могут вставлять свои текстовые сообщения в любой момент во время воспроизведения видео. Когда текстовое сообщение завершается, видео продолжает воспроизводиться, подобно альтернативе двух исполнителей в дуэте. Мы создаем MMDuetIT, набор данных для обучения видео-текстовых моделей, разработанный для адаптации VideoLLM к формату взаимодействия видео-текст. Мы также представляем задачу множественного ответа на вопросы по видео (MAGQA) для оценки способности VideoLLM к реагированию в реальном времени. Обученный на MMDuetIT, MMDuet демонстрирует, что принятие формата взаимодействия видео-текст позволяет модели значительно улучшить результаты в различных задачах, требующих выполнения в ограниченные сроки (76% CIDEr при плотном описании видеороликов YouCook2, 90% mAP при обнаружении высокоценных моментов в QVHighlights и 25% R@0.5 при временной локализации видеоотрывков в Charades-STA) с минимальными усилиями по обучению, а также позволяет VideoLLM отвечать в реальном времени во время воспроизведения видео. Код, данные и демонстрация доступны по ссылке: https://github.com/yellow-binary-tree/MMDuet.

English

Recent researches on video large language models (VideoLLM) predominantly focus on model architectures and training datasets, leaving the interaction format between the user and the model under-explored. In existing works, users often interact with VideoLLMs by using the entire video and a query as input, after which the model generates a response. This interaction format constrains the application of VideoLLMs in scenarios such as live-streaming comprehension where videos do not end and responses are required in a real-time manner, and also results in unsatisfactory performance on time-sensitive tasks that requires localizing video segments. In this paper, we focus on a video-text duet interaction format. This interaction format is characterized by the continuous playback of the video, and both the user and the model can insert their text messages at any position during the video playback. When a text message ends, the video continues to play, akin to the alternative of two performers in a duet. We construct MMDuetIT, a video-text training dataset designed to adapt VideoLLMs to video-text duet interaction format. We also introduce the Multi-Answer Grounded Video Question Answering (MAGQA) task to benchmark the real-time response ability of VideoLLMs. Trained on MMDuetIT, MMDuet demonstrates that adopting the video-text duet interaction format enables the model to achieve significant improvements in various time-sensitive tasks (76% CIDEr on YouCook2 dense video captioning, 90\% mAP on QVHighlights highlight detection and 25% R@0.5 on Charades-STA temporal video grounding) with minimal training efforts, and also enable VideoLLMs to reply in a real-time manner as the video plays. Code, data and demo are available at: https://github.com/yellow-binary-tree/MMDuet.

VideoLLM знает, когда говорить: улучшение понимания видео с учетом времени с помощью формата взаимодействия видео-текст.

VideoLLM Knows When to Speak: Enhancing Time-Sensitive Video Comprehension with Video-Text Duet Interaction Format

Аннотация

Support