Optimisation des instructions vidéo avec des données synthétiques
Video Instruction Tuning With Synthetic Data
October 3, 2024
Auteurs: Yuanhan Zhang, Jinming Wu, Wei Li, Bo Li, Zejun Ma, Ziwei Liu, Chunyuan Li
cs.AI
Résumé
Le développement des grands modèles multimodaux vidéo (LMM) a été entravé par la difficulté de constituer de grandes quantités de données brutes de haute qualité sur le web. Pour remédier à cela, nous proposons une approche alternative en créant un ensemble de données synthétiques de haute qualité spécifiquement pour le suivi d'instructions vidéo, nommé LLaVA-Video-178K. Cet ensemble de données comprend des tâches clés telles que la légende détaillée, la réponse à des questions ouvertes (QA) et des questions à choix multiples. En formant ce modèle sur cet ensemble de données, en combinaison avec des données d'ajustement visuel d'instructions existantes, nous introduisons LLaVA-Video, un nouveau LMM vidéo. Nos expériences démontrent que LLaVA-Video obtient de bonnes performances sur divers benchmarks vidéo, mettant en avant l'efficacité de notre ensemble de données. Nous prévoyons de publier l'ensemble de données, son pipeline de génération et les points de contrôle du modèle.
English
The development of video large multimodal models (LMMs) has been hindered by
the difficulty of curating large amounts of high-quality raw data from the web.
To address this, we propose an alternative approach by creating a high-quality
synthetic dataset specifically for video instruction-following, namely
LLaVA-Video-178K. This dataset includes key tasks such as detailed captioning,
open-ended question-answering (QA), and multiple-choice QA. By training on this
dataset, in combination with existing visual instruction tuning data, we
introduce LLaVA-Video, a new video LMM. Our experiments demonstrate that
LLaVA-Video achieves strong performance across various video benchmarks,
highlighting the effectiveness of our dataset. We plan to release the dataset,
its generation pipeline, and the model checkpoints.Summary
AI-Generated Summary