ViSpeak: Feedback Visual de Instruções em Vídeos em Streaming
ViSpeak: Visual Instruction Feedback in Streaming Videos
March 17, 2025
Autores: Shenghao Fu, Qize Yang, Yuan-Ming Li, Yi-Xing Peng, Kun-Yu Lin, Xihan Wei, Jian-Fang Hu, Xiaohua Xie, Wei-Shi Zheng
cs.AI
Resumo
Os avanços recentes em Modelos Multimodais de Grande Escala (LMMs) concentram-se principalmente na compreensão de vídeos offline. Em contraste, a compreensão de vídeos em streaming apresenta grandes desafios para os modelos atuais devido às suas características sensíveis ao tempo, omnimodais e interativas. Neste trabalho, buscamos estender a compreensão de vídeos em streaming a partir de uma nova perspectiva e propomos uma nova tarefa denominada Feedback de Instrução Visual, na qual os modelos devem estar cientes dos conteúdos visuais e aprender a extrair instruções deles. Por exemplo, quando os usuários acenam para os agentes, estes devem reconhecer o gesto e iniciar conversas com informações de boas-vindas. Assim, seguir instruções na modalidade visual aprimora significativamente as interações entre usuário e agente. Para facilitar a pesquisa, definimos sete subtarefas-chave altamente relevantes para a modalidade visual e coletamos o conjunto de dados ViSpeak-Instruct para treinamento e o ViSpeak-Bench para avaliação. Além disso, propomos o modelo ViSpeak, que é um LMM de compreensão de vídeos em streaming de última geração com desempenho comparável ao GPT-4o em vários benchmarks de compreensão de vídeos em streaming. Após o ajuste fino em nosso conjunto de dados ViSpeak-Instruct, o ViSpeak é equipado com uma capacidade básica de feedback de instrução visual, servindo como uma base sólida para pesquisas futuras.
English
Recent advances in Large Multi-modal Models (LMMs) are primarily focused on
offline video understanding. Instead, streaming video understanding poses great
challenges to recent models due to its time-sensitive, omni-modal and
interactive characteristics. In this work, we aim to extend the streaming video
understanding from a new perspective and propose a novel task named Visual
Instruction Feedback in which models should be aware of visual contents and
learn to extract instructions from them. For example, when users wave their
hands to agents, agents should recognize the gesture and start conversations
with welcome information. Thus, following instructions in visual modality
greatly enhances user-agent interactions. To facilitate research, we define
seven key subtasks highly relevant to visual modality and collect the
ViSpeak-Instruct dataset for training and the ViSpeak-Bench for evaluation.
Further, we propose the ViSpeak model, which is a SOTA streaming video
understanding LMM with GPT-4o-level performance on various streaming video
understanding benchmarks. After finetuning on our ViSpeak-Instruct dataset,
ViSpeak is equipped with basic visual instruction feedback ability, serving as
a solid baseline for future research.Summary
AI-Generated Summary