Youku-mPLUG: Крупномасштабный китайский видеотекстовый набор данных для предварительного обучения и тестирования, содержащий 10 миллионов примеров

Аннотация

Для содействия развитию предобучения моделей для задач "Видео-Текст" (Vision-Language Pre-training, VLP) и мультимодальных больших языковых моделей (Large Language Model, LLM) в китайском сообществе мы впервые публикуем крупнейший открытый высококачественный китайский набор данных Youku-mPLUG, собранный с популярной китайской видеоплатформы Youku с соблюдением строгих критериев безопасности, разнообразия и качества. Youku-mPLUG содержит 10 миллионов пар "видео-текст", отфильтрованных из 400 миллионов исходных видеозаписей, охватывающих 45 разнообразных категорий для масштабного предобучения. Кроме того, для всесторонней оценки моделей, работающих с видео и текстом, мы тщательно создали крупнейшие аннотированные вручную китайские бенчмарки, охватывающие три популярные задачи: кросс-модальный поиск, генерация описаний к видео и классификация категорий видео. Youku-mPLUG позволяет исследователям проводить более глубокие мультимодальные исследования и разрабатывать более совершенные приложения в будущем. Мы также публикуем популярные модели предобучения для задач "Видео-Текст", такие как ALPRO и mPLUG-2, а также нашу предложенную модульную модель с декодером mPLUG-video, предобученную на Youku-mPLUG. Эксперименты показывают, что модели, предобученные на Youku-mPLUG, достигают улучшения до 23,1% в задаче классификации категорий видео. Кроме того, mPLUG-video устанавливает новый рекорд на этих бенчмарках с точностью 80,5% (top-1) в классификации категорий видео и оценкой CIDEr 68,9 в генерации описаний к видео. Наконец, мы масштабируем mPLUG-video на основе замороженной модели Bloomz с использованием всего 1,7% обучаемых параметров в качестве китайской мультимодальной LLM, демонстрируя впечатляющие способности в понимании инструкций и видео. Эксперимент с нулевым обучением (zero-shot) на понимание инструкций показывает, что предобучение на Youku-mPLUG улучшает способность модели понимать общую и детальную визуальную семантику, распознавать текст в сценах и использовать открытые знания.

English

To promote the development of Vision-Language Pre-training (VLP) and multimodal Large Language Model (LLM) in the Chinese community, we firstly release the largest public Chinese high-quality video-language dataset named Youku-mPLUG, which is collected from Youku, a well-known Chinese video-sharing website, with strict criteria of safety, diversity, and quality. Youku-mPLUG contains 10 million Chinese video-text pairs filtered from 400 million raw videos across a wide range of 45 diverse categories for large-scale pre-training. In addition, to facilitate a comprehensive evaluation of video-language models, we carefully build the largest human-annotated Chinese benchmarks covering three popular video-language tasks of cross-modal retrieval, video captioning, and video category classification. Youku-mPLUG can enable researchers to conduct more in-depth multimodal research and develop better applications in the future. Furthermore, we release popular video-language pre-training models, ALPRO and mPLUG-2, and our proposed modularized decoder-only model mPLUG-video pre-trained on Youku-mPLUG. Experiments show that models pre-trained on Youku-mPLUG gain up to 23.1% improvement in video category classification. Besides, mPLUG-video achieves a new state-of-the-art result on these benchmarks with 80.5% top-1 accuracy in video category classification and 68.9 CIDEr score in video captioning, respectively. Finally, we scale up mPLUG-video based on the frozen Bloomz with only 1.7% trainable parameters as Chinese multimodal LLM, and demonstrate impressive instruction and video understanding ability. The zero-shot instruction understanding experiment indicates that pretraining with Youku-mPLUG can enhance the ability to comprehend overall and detailed visual semantics, recognize scene text, and leverage open-domain knowledge.

Youku-mPLUG: Крупномасштабный китайский видеотекстовый набор данных для предварительного обучения и тестирования, содержащий 10 миллионов примеров

Youku-mPLUG: A 10 Million Large-scale Chinese Video-Language Dataset for Pre-training and Benchmarks

Аннотация

Support