VideoLLMは話すタイミングを知っています:ビデオテキストデュエットインタラクション形式による時間的に敏感なビデオ理解の向上
VideoLLM Knows When to Speak: Enhancing Time-Sensitive Video Comprehension with Video-Text Duet Interaction Format
November 27, 2024
著者: Yueqian Wang, Xiaojun Meng, Yuxuan Wang, Jianxin Liang, Jiansheng Wei, Huishuai Zhang, Dongyan Zhao
cs.AI
要旨
最近のビデオ大規模言語モデル(VideoLLM)に関する研究は、主にモデルアーキテクチャとトレーニングデータセットに焦点を当てており、ユーザーとモデルのインタラクション形式が未開拓のままとなっています。既存の研究では、ユーザーは通常、ビデオ全体とクエリを入力として使用してVideoLLMとやり取りし、その後モデルが応答を生成します。このインタラクション形式は、ビデオが終わらずリアルタイムで応答が必要なライブストリーミング理解などのシナリオでのVideoLLMの適用を制限し、また、ビデオセグメントのローカライズが必要な時間的に敏感なタスクでのパフォーマンスが不十分であるという結果をもたらします。本論文では、ビデオテキストデュエットのインタラクション形式に焦点を当てています。このインタラクション形式は、ビデオの連続再生と、ユーザーとモデルがビデオ再生中に任意の位置にテキストメッセージを挿入できることを特徴としています。テキストメッセージが終了すると、ビデオは再生を続け、デュエットのパフォーマーの代替と同様です。私たちは、VideoLLMをビデオテキストデュエットのインタラクション形式に適応させるために設計されたMMDuetITというビデオテキストトレーニングデータセットを構築します。また、リアルタイム応答能力を評価するためにMulti-Answer Grounded Video Question Answering(MAGQA)タスクを導入します。MMDuetITでトレーニングされたMMDuetは、ビデオテキストデュエットのインタラクション形式を採用することで、さまざまな時間的に敏感なタスク(YouCook2の密なビデオキャプショニングで76%のCIDEr、QVHighlightsのハイライト検出で90%のmAP、Charades-STAの時間的ビデオグラウンディングで25%の[email protected])で著しい改善を達成し、トレーニングの努力を最小限に抑えつつ、ビデオ再生中にリアルタイムで応答することも可能となります。コード、データ、デモは以下で入手可能です:https://github.com/yellow-binary-tree/MMDuet.
English
Recent researches on video large language models (VideoLLM) predominantly
focus on model architectures and training datasets, leaving the interaction
format between the user and the model under-explored. In existing works, users
often interact with VideoLLMs by using the entire video and a query as input,
after which the model generates a response. This interaction format constrains
the application of VideoLLMs in scenarios such as live-streaming comprehension
where videos do not end and responses are required in a real-time manner, and
also results in unsatisfactory performance on time-sensitive tasks that
requires localizing video segments. In this paper, we focus on a video-text
duet interaction format. This interaction format is characterized by the
continuous playback of the video, and both the user and the model can insert
their text messages at any position during the video playback. When a text
message ends, the video continues to play, akin to the alternative of two
performers in a duet. We construct MMDuetIT, a video-text training dataset
designed to adapt VideoLLMs to video-text duet interaction format. We also
introduce the Multi-Answer Grounded Video Question Answering (MAGQA) task to
benchmark the real-time response ability of VideoLLMs. Trained on MMDuetIT,
MMDuet demonstrates that adopting the video-text duet interaction format
enables the model to achieve significant improvements in various time-sensitive
tasks (76% CIDEr on YouCook2 dense video captioning, 90\% mAP on QVHighlights
highlight detection and 25% [email protected] on Charades-STA temporal video grounding)
with minimal training efforts, and also enable VideoLLMs to reply in a
real-time manner as the video plays. Code, data and demo are available at:
https://github.com/yellow-binary-tree/MMDuet.Summary
AI-Generated Summary