VideoLLM sabe cuándo hablar: Mejorando la comprensión de videos sensibles al tiempo con el formato de interacción Video-Texto Dúo.
VideoLLM Knows When to Speak: Enhancing Time-Sensitive Video Comprehension with Video-Text Duet Interaction Format
November 27, 2024
Autores: Yueqian Wang, Xiaojun Meng, Yuxuan Wang, Jianxin Liang, Jiansheng Wei, Huishuai Zhang, Dongyan Zhao
cs.AI
Resumen
Las investigaciones recientes sobre grandes modelos de lenguaje de video (VideoLLM) se centran principalmente en las arquitecturas de modelos y conjuntos de datos de entrenamiento, dejando sin explorar el formato de interacción entre el usuario y el modelo. En trabajos existentes, los usuarios suelen interactuar con VideoLLMs utilizando el video completo y una consulta como entrada, tras lo cual el modelo genera una respuesta. Este formato de interacción limita la aplicación de VideoLLMs en escenarios como la comprensión de transmisiones en vivo, donde los videos no terminan y se requieren respuestas en tiempo real, y también resulta en un rendimiento insatisfactorio en tareas sensibles al tiempo que requieren la localización de segmentos de video. En este documento, nos centramos en un formato de interacción video-texto en dúo. Este formato de interacción se caracteriza por la reproducción continua del video, y tanto el usuario como el modelo pueden insertar sus mensajes de texto en cualquier posición durante la reproducción del video. Cuando un mensaje de texto termina, el video continúa reproduciéndose, similar a la alternancia de dos intérpretes en un dúo. Construimos MMDuetIT, un conjunto de datos de entrenamiento de video-texto diseñado para adaptar los VideoLLMs al formato de interacción video-texto en dúo. También presentamos la tarea de Preguntas y Respuestas de Video Ancladas con Múltiples Respuestas (MAGQA) para evaluar la capacidad de respuesta en tiempo real de los VideoLLMs. Entrenado en MMDuetIT, MMDuet demuestra que adoptar el formato de interacción video-texto en dúo permite que el modelo logre mejoras significativas en varias tareas sensibles al tiempo (76% CIDEr en la generación densa de subtítulos de video YouCook2, 90% mAP en la detección de momentos destacados QVHighlights y 25% [email protected] en la localización temporal de videos Charades-STA) con esfuerzos de entrenamiento mínimos, y también permite que los VideoLLMs respondan en tiempo real mientras el video se reproduce. El código, los datos y la demostración están disponibles en: https://github.com/yellow-binary-tree/MMDuet.
English
Recent researches on video large language models (VideoLLM) predominantly
focus on model architectures and training datasets, leaving the interaction
format between the user and the model under-explored. In existing works, users
often interact with VideoLLMs by using the entire video and a query as input,
after which the model generates a response. This interaction format constrains
the application of VideoLLMs in scenarios such as live-streaming comprehension
where videos do not end and responses are required in a real-time manner, and
also results in unsatisfactory performance on time-sensitive tasks that
requires localizing video segments. In this paper, we focus on a video-text
duet interaction format. This interaction format is characterized by the
continuous playback of the video, and both the user and the model can insert
their text messages at any position during the video playback. When a text
message ends, the video continues to play, akin to the alternative of two
performers in a duet. We construct MMDuetIT, a video-text training dataset
designed to adapt VideoLLMs to video-text duet interaction format. We also
introduce the Multi-Answer Grounded Video Question Answering (MAGQA) task to
benchmark the real-time response ability of VideoLLMs. Trained on MMDuetIT,
MMDuet demonstrates that adopting the video-text duet interaction format
enables the model to achieve significant improvements in various time-sensitive
tasks (76% CIDEr on YouCook2 dense video captioning, 90\% mAP on QVHighlights
highlight detection and 25% [email protected] on Charades-STA temporal video grounding)
with minimal training efforts, and also enable VideoLLMs to reply in a
real-time manner as the video plays. Code, data and demo are available at:
https://github.com/yellow-binary-tree/MMDuet.Summary
AI-Generated Summary