ChatPaper.aiChatPaper

Настройка видеоинструкций с использованием синтетических данных

Video Instruction Tuning With Synthetic Data

October 3, 2024
Авторы: Yuanhan Zhang, Jinming Wu, Wei Li, Bo Li, Zejun Ma, Ziwei Liu, Chunyuan Li
cs.AI

Аннотация

Развитие видео крупных мультимодальных моделей (LMM) затруднено из-за сложности курирования больших объемов высококачественных исходных данных из Интернета. Для решения этой проблемы мы предлагаем альтернативный подход путем создания высококачественного синтетического набора данных специально для выполнения инструкций по видео, а именно LLaVA-Video-178K. Этот набор данных включает ключевые задачи, такие как подробное описание, ответы на открытые вопросы (QA) и вопросы с выбором ответа. Обучаясь на этом наборе данных, в сочетании с существующими данными настройки визуальных инструкций, мы представляем LLaVA-Video, новую видео LMM. Наши эксперименты показывают, что LLaVA-Video достигает высокой производительности на различных видео бенчмарках, подчеркивая эффективность нашего набора данных. Мы планируем выпустить набор данных, его процесс генерации и контрольные точки модели.
English
The development of video large multimodal models (LMMs) has been hindered by the difficulty of curating large amounts of high-quality raw data from the web. To address this, we propose an alternative approach by creating a high-quality synthetic dataset specifically for video instruction-following, namely LLaVA-Video-178K. This dataset includes key tasks such as detailed captioning, open-ended question-answering (QA), and multiple-choice QA. By training on this dataset, in combination with existing visual instruction tuning data, we introduce LLaVA-Video, a new video LMM. Our experiments demonstrate that LLaVA-Video achieves strong performance across various video benchmarks, highlighting the effectiveness of our dataset. We plan to release the dataset, its generation pipeline, and the model checkpoints.

Summary

AI-Generated Summary

PDF393November 16, 2024