ViSpeak: ストリーミング動画における視覚的指示フィードバック
ViSpeak: Visual Instruction Feedback in Streaming Videos
March 17, 2025
著者: Shenghao Fu, Qize Yang, Yuan-Ming Li, Yi-Xing Peng, Kun-Yu Lin, Xihan Wei, Jian-Fang Hu, Xiaohua Xie, Wei-Shi Zheng
cs.AI
要旨
大規模マルチモーダルモデル(LMM)の最近の進展は、主にオフラインの映像理解に焦点が当てられています。一方、ストリーミング映像の理解は、その時間敏感性、全モーダル性、およびインタラクティブ性の特性から、最近のモデルにとって大きな課題となっています。本研究では、ストリーミング映像理解を新たな視点から拡張し、モデルが視覚的コンテンツを認識し、そこから指示を抽出することを学ぶべき新たなタスク「Visual Instruction Feedback」を提案します。例えば、ユーザーがエージェントに向かって手を振ると、エージェントはそのジェスチャーを認識し、ウェルカム情報を用いて会話を開始するべきです。このように、視覚モダリティにおける指示に従うことは、ユーザーとエージェントのインタラクションを大幅に向上させます。研究を促進するため、視覚モダリティと密接に関連する7つの主要なサブタスクを定義し、トレーニング用のViSpeak-Instructデータセットと評価用のViSpeak-Benchを収集しました。さらに、GPT-4oレベルの性能を様々なストリーミング映像理解ベンチマークで達成するSOTAのストリーミング映像理解LMMであるViSpeakモデルを提案します。ViSpeak-Instructデータセットでファインチューニングを行った後、ViSpeakは基本的な視覚指示フィードバック能力を備え、将来の研究のための堅固なベースラインとして機能します。
English
Recent advances in Large Multi-modal Models (LMMs) are primarily focused on
offline video understanding. Instead, streaming video understanding poses great
challenges to recent models due to its time-sensitive, omni-modal and
interactive characteristics. In this work, we aim to extend the streaming video
understanding from a new perspective and propose a novel task named Visual
Instruction Feedback in which models should be aware of visual contents and
learn to extract instructions from them. For example, when users wave their
hands to agents, agents should recognize the gesture and start conversations
with welcome information. Thus, following instructions in visual modality
greatly enhances user-agent interactions. To facilitate research, we define
seven key subtasks highly relevant to visual modality and collect the
ViSpeak-Instruct dataset for training and the ViSpeak-Bench for evaluation.
Further, we propose the ViSpeak model, which is a SOTA streaming video
understanding LMM with GPT-4o-level performance on various streaming video
understanding benchmarks. After finetuning on our ViSpeak-Instruct dataset,
ViSpeak is equipped with basic visual instruction feedback ability, serving as
a solid baseline for future research.Summary
AI-Generated Summary