ViSpeak: Retroalimentación Visual de Instrucciones en Videos en Transmisión Continua
ViSpeak: Visual Instruction Feedback in Streaming Videos
March 17, 2025
Autores: Shenghao Fu, Qize Yang, Yuan-Ming Li, Yi-Xing Peng, Kun-Yu Lin, Xihan Wei, Jian-Fang Hu, Xiaohua Xie, Wei-Shi Zheng
cs.AI
Resumen
Los avances recientes en Modelos Multimodales de Gran Escala (LMMs) se centran principalmente en la comprensión de videos offline. En cambio, la comprensión de videos en streaming plantea grandes desafíos a los modelos actuales debido a sus características sensibles al tiempo, omni-modales e interactivas. En este trabajo, buscamos extender la comprensión de videos en streaming desde una nueva perspectiva y proponemos una tarea novedosa llamada Retroalimentación de Instrucciones Visuales, en la que los modelos deben ser conscientes de los contenidos visuales y aprender a extraer instrucciones de ellos. Por ejemplo, cuando los usuarios hacen gestos con las manos hacia los agentes, estos deben reconocer el gesto y comenzar conversaciones con información de bienvenida. Así, seguir instrucciones en la modalidad visual mejora significativamente las interacciones usuario-agente. Para facilitar la investigación, definimos siete subtareas clave altamente relevantes para la modalidad visual y recopilamos el conjunto de datos ViSpeak-Instruct para entrenamiento y el ViSpeak-Bench para evaluación. Además, proponemos el modelo ViSpeak, un LMM de última generación para la comprensión de videos en streaming con un rendimiento comparable a GPT-4o en varios benchmarks de comprensión de videos en streaming. Tras el ajuste fino en nuestro conjunto de datos ViSpeak-Instruct, ViSpeak adquiere una capacidad básica de retroalimentación de instrucciones visuales, sirviendo como una base sólida para futuras investigaciones.
English
Recent advances in Large Multi-modal Models (LMMs) are primarily focused on
offline video understanding. Instead, streaming video understanding poses great
challenges to recent models due to its time-sensitive, omni-modal and
interactive characteristics. In this work, we aim to extend the streaming video
understanding from a new perspective and propose a novel task named Visual
Instruction Feedback in which models should be aware of visual contents and
learn to extract instructions from them. For example, when users wave their
hands to agents, agents should recognize the gesture and start conversations
with welcome information. Thus, following instructions in visual modality
greatly enhances user-agent interactions. To facilitate research, we define
seven key subtasks highly relevant to visual modality and collect the
ViSpeak-Instruct dataset for training and the ViSpeak-Bench for evaluation.
Further, we propose the ViSpeak model, which is a SOTA streaming video
understanding LMM with GPT-4o-level performance on various streaming video
understanding benchmarks. After finetuning on our ViSpeak-Instruct dataset,
ViSpeak is equipped with basic visual instruction feedback ability, serving as
a solid baseline for future research.Summary
AI-Generated Summary