VideoLLM sait quand parler : Améliorer la compréhension des vidéos sensibles au temps avec le format d'interaction vidéo-texte en duo
VideoLLM Knows When to Speak: Enhancing Time-Sensitive Video Comprehension with Video-Text Duet Interaction Format
November 27, 2024
Auteurs: Yueqian Wang, Xiaojun Meng, Yuxuan Wang, Jianxin Liang, Jiansheng Wei, Huishuai Zhang, Dongyan Zhao
cs.AI
Résumé
Les recherches récentes sur les grands modèles de langage vidéo (VideoLLM) se concentrent principalement sur les architectures de modèle et les ensembles de données d'entraînement, laissant sous-exploité le format d'interaction entre l'utilisateur et le modèle. Dans les travaux existants, les utilisateurs interagissent souvent avec les VideoLLM en utilisant la vidéo entière et une requête en entrée, après quoi le modèle génère une réponse. Ce format d'interaction limite l'application des VideoLLM dans des scénarios tels que la compréhension en direct de vidéos où les vidéos ne se terminent pas et des réponses sont nécessaires en temps réel, et entraîne également des performances insatisfaisantes sur des tâches sensibles au temps qui nécessitent la localisation de segments vidéo. Dans cet article, nous nous concentrons sur un format d'interaction vidéo-texte en duo. Ce format d'interaction se caractérise par la lecture continue de la vidéo, et à la fois l'utilisateur et le modèle peuvent insérer leurs messages textuels à n'importe quel moment pendant la lecture de la vidéo. Lorsqu'un message texte se termine, la vidéo continue de jouer, similaire à l'alternance de deux interprètes dans un duo. Nous construisons MMDuetIT, un ensemble de données d'entraînement vidéo-texte conçu pour adapter les VideoLLM au format d'interaction vidéo-texte en duo. Nous introduisons également la tâche de Question-Réponse Vidéo Ancrée à Réponses Multiples (MAGQA) pour évaluer la capacité de réponse en temps réel des VideoLLM. Entraîné sur MMDuetIT, MMDuet démontre qu'adopter le format d'interaction vidéo-texte en duo permet au modèle d'obtenir des améliorations significatives dans diverses tâches sensibles au temps (76% CIDEr sur la légende dense de vidéos YouCook2, 90% mAP sur la détection de points forts QVHighlights et 25% [email protected] sur l'ancrage temporel de vidéos Charades-STA) avec des efforts de formation minimaux, et permet également aux VideoLLM de répondre en temps réel pendant la lecture de la vidéo. Le code, les données et la démonstration sont disponibles sur : https://github.com/yellow-binary-tree/MMDuet.
English
Recent researches on video large language models (VideoLLM) predominantly
focus on model architectures and training datasets, leaving the interaction
format between the user and the model under-explored. In existing works, users
often interact with VideoLLMs by using the entire video and a query as input,
after which the model generates a response. This interaction format constrains
the application of VideoLLMs in scenarios such as live-streaming comprehension
where videos do not end and responses are required in a real-time manner, and
also results in unsatisfactory performance on time-sensitive tasks that
requires localizing video segments. In this paper, we focus on a video-text
duet interaction format. This interaction format is characterized by the
continuous playback of the video, and both the user and the model can insert
their text messages at any position during the video playback. When a text
message ends, the video continues to play, akin to the alternative of two
performers in a duet. We construct MMDuetIT, a video-text training dataset
designed to adapt VideoLLMs to video-text duet interaction format. We also
introduce the Multi-Answer Grounded Video Question Answering (MAGQA) task to
benchmark the real-time response ability of VideoLLMs. Trained on MMDuetIT,
MMDuet demonstrates that adopting the video-text duet interaction format
enables the model to achieve significant improvements in various time-sensitive
tasks (76% CIDEr on YouCook2 dense video captioning, 90\% mAP on QVHighlights
highlight detection and 25% [email protected] on Charades-STA temporal video grounding)
with minimal training efforts, and also enable VideoLLMs to reply in a
real-time manner as the video plays. Code, data and demo are available at:
https://github.com/yellow-binary-tree/MMDuet.Summary
AI-Generated Summary