ViSpeak: Feedback di Istruzione Visiva nei Video in Streaming
ViSpeak: Visual Instruction Feedback in Streaming Videos
March 17, 2025
Autori: Shenghao Fu, Qize Yang, Yuan-Ming Li, Yi-Xing Peng, Kun-Yu Lin, Xihan Wei, Jian-Fang Hu, Xiaohua Xie, Wei-Shi Zheng
cs.AI
Abstract
I recenti progressi nei Large Multi-modal Models (LMM) si concentrano principalmente sulla comprensione offline dei video. Al contrario, la comprensione dei video in streaming presenta grandi sfide per i modelli recenti a causa delle sue caratteristiche sensibili al tempo, omni-modali e interattive. In questo lavoro, miriamo a estendere la comprensione dei video in streaming da una nuova prospettiva e proponiamo un nuovo compito denominato Visual Instruction Feedback, in cui i modelli dovrebbero essere consapevoli dei contenuti visivi e imparare a estrarre istruzioni da essi. Ad esempio, quando gli utenti fanno cenni con le mani agli agenti, questi dovrebbero riconoscere il gesto e avviare conversazioni con informazioni di benvenuto. Pertanto, seguire le istruzioni nella modalità visiva migliora notevolmente le interazioni utente-agente. Per facilitare la ricerca, definiamo sette sottocompiti chiave altamente rilevanti per la modalità visiva e raccogliamo il dataset ViSpeak-Instruct per l'addestramento e il ViSpeak-Bench per la valutazione. Inoltre, proponiamo il modello ViSpeak, un LMM all'avanguardia per la comprensione dei video in streaming con prestazioni di livello GPT-4o su vari benchmark di comprensione dei video in streaming. Dopo il fine-tuning sul nostro dataset ViSpeak-Instruct, ViSpeak è dotato di una capacità di base di feedback sulle istruzioni visive, servendo come solida baseline per la ricerca futura.
English
Recent advances in Large Multi-modal Models (LMMs) are primarily focused on
offline video understanding. Instead, streaming video understanding poses great
challenges to recent models due to its time-sensitive, omni-modal and
interactive characteristics. In this work, we aim to extend the streaming video
understanding from a new perspective and propose a novel task named Visual
Instruction Feedback in which models should be aware of visual contents and
learn to extract instructions from them. For example, when users wave their
hands to agents, agents should recognize the gesture and start conversations
with welcome information. Thus, following instructions in visual modality
greatly enhances user-agent interactions. To facilitate research, we define
seven key subtasks highly relevant to visual modality and collect the
ViSpeak-Instruct dataset for training and the ViSpeak-Bench for evaluation.
Further, we propose the ViSpeak model, which is a SOTA streaming video
understanding LMM with GPT-4o-level performance on various streaming video
understanding benchmarks. After finetuning on our ViSpeak-Instruct dataset,
ViSpeak is equipped with basic visual instruction feedback ability, serving as
a solid baseline for future research.