Ajuste de Instruções em Vídeo com Dados Sintéticos

Resumo

O desenvolvimento de grandes modelos multimodais de vídeo (LMMs) tem sido dificultado pela complexidade de curadoria de grandes quantidades de dados brutos de alta qualidade da web. Para lidar com isso, propomos uma abordagem alternativa criando um conjunto de dados sintéticos de alta qualidade especificamente para seguir instruções em vídeos, denominado LLaVA-Video-178K. Este conjunto de dados inclui tarefas-chave como legendas detalhadas, perguntas e respostas abertas (QA) e QA de múltipla escolha. Ao treinar neste conjunto de dados, em combinação com dados de ajuste visual de instruções existentes, apresentamos o LLaVA-Video, um novo LMM de vídeo. Nossos experimentos demonstram que o LLaVA-Video alcança um desempenho sólido em diversos benchmarks de vídeo, destacando a eficácia de nosso conjunto de dados. Planejamos disponibilizar o conjunto de dados, sua pipeline de geração e os pontos de verificação do modelo.

English

The development of video large multimodal models (LMMs) has been hindered by the difficulty of curating large amounts of high-quality raw data from the web. To address this, we propose an alternative approach by creating a high-quality synthetic dataset specifically for video instruction-following, namely LLaVA-Video-178K. This dataset includes key tasks such as detailed captioning, open-ended question-answering (QA), and multiple-choice QA. By training on this dataset, in combination with existing visual instruction tuning data, we introduce LLaVA-Video, a new video LMM. Our experiments demonstrate that LLaVA-Video achieves strong performance across various video benchmarks, highlighting the effectiveness of our dataset. We plan to release the dataset, its generation pipeline, and the model checkpoints.

Ajuste de Instruções em Vídeo com Dados Sintéticos

Video Instruction Tuning With Synthetic Data

Resumo

Support