Video-instructieafstemming met synthetische gegevens
Video Instruction Tuning With Synthetic Data
October 3, 2024
Auteurs: Yuanhan Zhang, Jinming Wu, Wei Li, Bo Li, Zejun Ma, Ziwei Liu, Chunyuan Li
cs.AI
Samenvatting
De ontwikkeling van grote multimodale videomodellen (LMM's) is belemmerd door de moeilijkheid om grote hoeveelheden hoogwaardige ruwe data van het web te cureren. Om dit aan te pakken, stellen we een alternatieve benadering voor door een hoogwaardige synthetische dataset te creëren, specifiek voor het volgen van video-instructies, genaamd LLaVA-Video-178K. Deze dataset omvat belangrijke taken zoals gedetailleerde onderschriften, open vragen beantwoorden (QA) en meerkeuze QA. Door te trainen op deze dataset, in combinatie met bestaande visuele instructie-afstemmingsgegevens, introduceren we LLaVA-Video, een nieuw videomodel. Onze experimenten tonen aan dat LLaVA-Video sterke prestaties behaalt op verschillende videobenchmarks, waarbij de effectiviteit van onze dataset wordt benadrukt. We zijn van plan om de dataset, het generatieproces en de modelcontrolepunten vrij te geven.
English
The development of video large multimodal models (LMMs) has been hindered by
the difficulty of curating large amounts of high-quality raw data from the web.
To address this, we propose an alternative approach by creating a high-quality
synthetic dataset specifically for video instruction-following, namely
LLaVA-Video-178K. This dataset includes key tasks such as detailed captioning,
open-ended question-answering (QA), and multiple-choice QA. By training on this
dataset, in combination with existing visual instruction tuning data, we
introduce LLaVA-Video, a new video LMM. Our experiments demonstrate that
LLaVA-Video achieves strong performance across various video benchmarks,
highlighting the effectiveness of our dataset. We plan to release the dataset,
its generation pipeline, and the model checkpoints.Summary
AI-Generated Summary