ChatPaper.aiChatPaper

ViSpeak : Retour visuel d'instructions dans les vidéos en streaming

ViSpeak: Visual Instruction Feedback in Streaming Videos

March 17, 2025
Auteurs: Shenghao Fu, Qize Yang, Yuan-Ming Li, Yi-Xing Peng, Kun-Yu Lin, Xihan Wei, Jian-Fang Hu, Xiaohua Xie, Wei-Shi Zheng
cs.AI

Résumé

Les récentes avancées dans les modèles multi-modaux de grande taille (LMMs) se concentrent principalement sur la compréhension vidéo hors ligne. En revanche, la compréhension vidéo en flux continu pose de grands défis aux modèles récents en raison de ses caractéristiques sensibles au temps, omni-modales et interactives. Dans ce travail, nous visons à étendre la compréhension vidéo en flux continu sous un nouvel angle et proposons une nouvelle tâche nommée Feedback d'Instructions Visuelles, dans laquelle les modèles doivent être conscients des contenus visuels et apprendre à en extraire des instructions. Par exemple, lorsque les utilisateurs font des gestes aux agents, ces derniers devraient reconnaître le geste et entamer des conversations avec des informations de bienvenue. Ainsi, suivre des instructions dans la modalité visuelle améliore grandement les interactions utilisateur-agent. Pour faciliter la recherche, nous définissons sept sous-tâches clés hautement pertinentes pour la modalité visuelle et collectons le jeu de données ViSpeak-Instruct pour l'entraînement et le ViSpeak-Bench pour l'évaluation. De plus, nous proposons le modèle ViSpeak, qui est un LMM de compréhension vidéo en flux continu de pointe, offrant des performances de niveau GPT-4o sur divers benchmarks de compréhension vidéo en flux continu. Après un ajustement fin sur notre jeu de données ViSpeak-Instruct, ViSpeak est doté d'une capacité de base de feedback d'instructions visuelles, servant de base solide pour les recherches futures.
English
Recent advances in Large Multi-modal Models (LMMs) are primarily focused on offline video understanding. Instead, streaming video understanding poses great challenges to recent models due to its time-sensitive, omni-modal and interactive characteristics. In this work, we aim to extend the streaming video understanding from a new perspective and propose a novel task named Visual Instruction Feedback in which models should be aware of visual contents and learn to extract instructions from them. For example, when users wave their hands to agents, agents should recognize the gesture and start conversations with welcome information. Thus, following instructions in visual modality greatly enhances user-agent interactions. To facilitate research, we define seven key subtasks highly relevant to visual modality and collect the ViSpeak-Instruct dataset for training and the ViSpeak-Bench for evaluation. Further, we propose the ViSpeak model, which is a SOTA streaming video understanding LMM with GPT-4o-level performance on various streaming video understanding benchmarks. After finetuning on our ViSpeak-Instruct dataset, ViSpeak is equipped with basic visual instruction feedback ability, serving as a solid baseline for future research.
PDF82March 20, 2025