Ottimizzazione dell'Istruzione Video con Dati Sintetici
Video Instruction Tuning With Synthetic Data
October 3, 2024
Autori: Yuanhan Zhang, Jinming Wu, Wei Li, Bo Li, Zejun Ma, Ziwei Liu, Chunyuan Li
cs.AI
Abstract
Lo sviluppo dei grandi modelli multimodali video (LMM) è stato ostacolato dalla difficoltà di curare grandi quantità di dati grezzi di alta qualità dal web. Per affrontare questo problema, proponiamo un approccio alternativo creando un dataset sintetico di alta qualità specificamente per l'inseguimento delle istruzioni video, chiamato LLaVA-Video-178K. Questo dataset include compiti chiave come la descrizione dettagliata, la risposta a domande aperte (QA) e il QA a scelta multipla. Allenandoci su questo dataset, in combinazione con dati di sintonizzazione delle istruzioni visive esistenti, introduciamo LLaVA-Video, un nuovo LMM video. I nostri esperimenti dimostrano che LLaVA-Video ottiene ottime prestazioni su vari benchmark video, evidenziando l'efficacia del nostro dataset. Abbiamo in programma di rilasciare il dataset, il suo processo di generazione e i checkpoint del modello.
English
The development of video large multimodal models (LMMs) has been hindered by
the difficulty of curating large amounts of high-quality raw data from the web.
To address this, we propose an alternative approach by creating a high-quality
synthetic dataset specifically for video instruction-following, namely
LLaVA-Video-178K. This dataset includes key tasks such as detailed captioning,
open-ended question-answering (QA), and multiple-choice QA. By training on this
dataset, in combination with existing visual instruction tuning data, we
introduce LLaVA-Video, a new video LMM. Our experiments demonstrate that
LLaVA-Video achieves strong performance across various video benchmarks,
highlighting the effectiveness of our dataset. We plan to release the dataset,
its generation pipeline, and the model checkpoints.