Optimisation des instructions vidéo avec des données synthétiques

papers.abstract

Le développement des grands modèles multimodaux vidéo (LMM) a été entravé par la difficulté de constituer de grandes quantités de données brutes de haute qualité sur le web. Pour remédier à cela, nous proposons une approche alternative en créant un ensemble de données synthétiques de haute qualité spécifiquement pour le suivi d'instructions vidéo, nommé LLaVA-Video-178K. Cet ensemble de données comprend des tâches clés telles que la légende détaillée, la réponse à des questions ouvertes (QA) et des questions à choix multiples. En formant ce modèle sur cet ensemble de données, en combinaison avec des données d'ajustement visuel d'instructions existantes, nous introduisons LLaVA-Video, un nouveau LMM vidéo. Nos expériences démontrent que LLaVA-Video obtient de bonnes performances sur divers benchmarks vidéo, mettant en avant l'efficacité de notre ensemble de données. Nous prévoyons de publier l'ensemble de données, son pipeline de génération et les points de contrôle du modèle.

English

The development of video large multimodal models (LMMs) has been hindered by the difficulty of curating large amounts of high-quality raw data from the web. To address this, we propose an alternative approach by creating a high-quality synthetic dataset specifically for video instruction-following, namely LLaVA-Video-178K. This dataset includes key tasks such as detailed captioning, open-ended question-answering (QA), and multiple-choice QA. By training on this dataset, in combination with existing visual instruction tuning data, we introduce LLaVA-Video, a new video LMM. Our experiments demonstrate that LLaVA-Video achieves strong performance across various video benchmarks, highlighting the effectiveness of our dataset. We plan to release the dataset, its generation pipeline, and the model checkpoints.

Optimisation des instructions vidéo avec des données synthétiques

Video Instruction Tuning With Synthetic Data

papers.abstract

Support