Ajuste de Instrucciones en Video con Datos Sintéticos

Resumen

El desarrollo de grandes modelos multimodales de video (LMMs) se ha visto obstaculizado por la dificultad de curar grandes cantidades de datos crudos de alta calidad de la web. Para abordar esto, proponemos un enfoque alternativo creando un conjunto de datos sintético de alta calidad específicamente para seguir instrucciones en video, denominado LLaVA-Video-178K. Este conjunto de datos incluye tareas clave como subtitulado detallado, preguntas abiertas de respuesta (QA) y QA de opción múltiple. Al entrenar en este conjunto de datos, en combinación con datos de ajuste visual de instrucciones existentes, presentamos LLaVA-Video, un nuevo LMM de video. Nuestros experimentos demuestran que LLaVA-Video logra un rendimiento sólido en varios puntos de referencia de video, resaltando la efectividad de nuestro conjunto de datos. Planeamos publicar el conjunto de datos, su canal de generación y los puntos de control del modelo.

English

The development of video large multimodal models (LMMs) has been hindered by the difficulty of curating large amounts of high-quality raw data from the web. To address this, we propose an alternative approach by creating a high-quality synthetic dataset specifically for video instruction-following, namely LLaVA-Video-178K. This dataset includes key tasks such as detailed captioning, open-ended question-answering (QA), and multiple-choice QA. By training on this dataset, in combination with existing visual instruction tuning data, we introduce LLaVA-Video, a new video LMM. Our experiments demonstrate that LLaVA-Video achieves strong performance across various video benchmarks, highlighting the effectiveness of our dataset. We plan to release the dataset, its generation pipeline, and the model checkpoints.

Ajuste de Instrucciones en Video con Datos Sintéticos

Video Instruction Tuning With Synthetic Data

Resumen

Support