ViSpeak: Visuele instructie-feedback in streamingvideo's
ViSpeak: Visual Instruction Feedback in Streaming Videos
March 17, 2025
Auteurs: Shenghao Fu, Qize Yang, Yuan-Ming Li, Yi-Xing Peng, Kun-Yu Lin, Xihan Wei, Jian-Fang Hu, Xiaohua Xie, Wei-Shi Zheng
cs.AI
Samenvatting
Recente ontwikkelingen in Grote Multimodale Modellen (LMMs) richten zich voornamelijk op offline videobegrip. Daarentegen stelt streaming videobegrip recente modellen voor grote uitdagingen vanwege de tijdsgevoelige, omnimodale en interactieve kenmerken. In dit werk streven we ernaar om streaming videobegrip vanuit een nieuw perspectief uit te breiden en stellen we een nieuwe taak voor genaamd Visuele Instructie Feedback, waarbij modellen zich bewust moeten zijn van visuele inhoud en moeten leren om instructies hieruit te extraheren. Bijvoorbeeld, wanneer gebruikers met hun handen zwaaien naar agents, moeten agents het gebaar herkennen en gesprekken starten met welkomstinformatie. Het volgen van instructies in de visuele modaliteit verbetert dus de interactie tussen gebruiker en agent aanzienlijk. Om onderzoek te faciliteren, definiëren we zeven belangrijke subtaken die sterk relevant zijn voor de visuele modaliteit en verzamelen we de ViSpeak-Instruct dataset voor training en de ViSpeak-Bench voor evaluatie. Verder stellen we het ViSpeak-model voor, een state-of-the-art streaming videobegrip LMM met GPT-4o-niveau prestaties op verschillende streaming videobegrip benchmarks. Na fine-tuning op onze ViSpeak-Instruct dataset, is ViSpeak uitgerust met een basisvaardigheid voor visuele instructie feedback, wat een solide basis vormt voor toekomstig onderzoek.
English
Recent advances in Large Multi-modal Models (LMMs) are primarily focused on
offline video understanding. Instead, streaming video understanding poses great
challenges to recent models due to its time-sensitive, omni-modal and
interactive characteristics. In this work, we aim to extend the streaming video
understanding from a new perspective and propose a novel task named Visual
Instruction Feedback in which models should be aware of visual contents and
learn to extract instructions from them. For example, when users wave their
hands to agents, agents should recognize the gesture and start conversations
with welcome information. Thus, following instructions in visual modality
greatly enhances user-agent interactions. To facilitate research, we define
seven key subtasks highly relevant to visual modality and collect the
ViSpeak-Instruct dataset for training and the ViSpeak-Bench for evaluation.
Further, we propose the ViSpeak model, which is a SOTA streaming video
understanding LMM with GPT-4o-level performance on various streaming video
understanding benchmarks. After finetuning on our ViSpeak-Instruct dataset,
ViSpeak is equipped with basic visual instruction feedback ability, serving as
a solid baseline for future research.Summary
AI-Generated Summary