Ajuste de Instrucciones en Video con Datos Sintéticos
Video Instruction Tuning With Synthetic Data
October 3, 2024
Autores: Yuanhan Zhang, Jinming Wu, Wei Li, Bo Li, Zejun Ma, Ziwei Liu, Chunyuan Li
cs.AI
Resumen
El desarrollo de grandes modelos multimodales de video (LMMs) se ha visto obstaculizado por la dificultad de curar grandes cantidades de datos crudos de alta calidad de la web. Para abordar esto, proponemos un enfoque alternativo creando un conjunto de datos sintético de alta calidad específicamente para seguir instrucciones en video, denominado LLaVA-Video-178K. Este conjunto de datos incluye tareas clave como subtitulado detallado, preguntas abiertas de respuesta (QA) y QA de opción múltiple. Al entrenar en este conjunto de datos, en combinación con datos de ajuste visual de instrucciones existentes, presentamos LLaVA-Video, un nuevo LMM de video. Nuestros experimentos demuestran que LLaVA-Video logra un rendimiento sólido en varios puntos de referencia de video, resaltando la efectividad de nuestro conjunto de datos. Planeamos publicar el conjunto de datos, su canal de generación y los puntos de control del modelo.
English
The development of video large multimodal models (LMMs) has been hindered by
the difficulty of curating large amounts of high-quality raw data from the web.
To address this, we propose an alternative approach by creating a high-quality
synthetic dataset specifically for video instruction-following, namely
LLaVA-Video-178K. This dataset includes key tasks such as detailed captioning,
open-ended question-answering (QA), and multiple-choice QA. By training on this
dataset, in combination with existing visual instruction tuning data, we
introduce LLaVA-Video, a new video LMM. Our experiments demonstrate that
LLaVA-Video achieves strong performance across various video benchmarks,
highlighting the effectiveness of our dataset. We plan to release the dataset,
its generation pipeline, and the model checkpoints.Summary
AI-Generated Summary