Ajuste de Instruções em Vídeo com Dados Sintéticos
Video Instruction Tuning With Synthetic Data
October 3, 2024
Autores: Yuanhan Zhang, Jinming Wu, Wei Li, Bo Li, Zejun Ma, Ziwei Liu, Chunyuan Li
cs.AI
Resumo
O desenvolvimento de grandes modelos multimodais de vídeo (LMMs) tem sido dificultado pela complexidade de curadoria de grandes quantidades de dados brutos de alta qualidade da web. Para lidar com isso, propomos uma abordagem alternativa criando um conjunto de dados sintéticos de alta qualidade especificamente para seguir instruções em vídeos, denominado LLaVA-Video-178K. Este conjunto de dados inclui tarefas-chave como legendas detalhadas, perguntas e respostas abertas (QA) e QA de múltipla escolha. Ao treinar neste conjunto de dados, em combinação com dados de ajuste visual de instruções existentes, apresentamos o LLaVA-Video, um novo LMM de vídeo. Nossos experimentos demonstram que o LLaVA-Video alcança um desempenho sólido em diversos benchmarks de vídeo, destacando a eficácia de nosso conjunto de dados. Planejamos disponibilizar o conjunto de dados, sua pipeline de geração e os pontos de verificação do modelo.
English
The development of video large multimodal models (LMMs) has been hindered by
the difficulty of curating large amounts of high-quality raw data from the web.
To address this, we propose an alternative approach by creating a high-quality
synthetic dataset specifically for video instruction-following, namely
LLaVA-Video-178K. This dataset includes key tasks such as detailed captioning,
open-ended question-answering (QA), and multiple-choice QA. By training on this
dataset, in combination with existing visual instruction tuning data, we
introduce LLaVA-Video, a new video LMM. Our experiments demonstrate that
LLaVA-Video achieves strong performance across various video benchmarks,
highlighting the effectiveness of our dataset. We plan to release the dataset,
its generation pipeline, and the model checkpoints.Summary
AI-Generated Summary