Youku-mPLUG: Um Conjunto de Dados em Larga Escala de Vídeo e Linguagem em Chinês com 10 Milhões de Amostras para Pré-treinamento e Benchmarking
Youku-mPLUG: A 10 Million Large-scale Chinese Video-Language Dataset for Pre-training and Benchmarks
June 7, 2023
Autores: Haiyang Xu, Qinghao Ye, Xuan Wu, Ming Yan, Yuan Miao, Jiabo Ye, Guohai Xu, Anwen Hu, Yaya Shi, Guangwei Xu, Chenliang Li, Qi Qian, Maofei Que, Ji Zhang, Xiao Zeng, Fei Huang
cs.AI
Resumo
Para promover o desenvolvimento de pré-treinamento visão-linguagem (VLP) e modelos de linguagem multimodal de grande escala (LLM) na comunidade chinesa, lançamos inicialmente o maior conjunto de dados público de alta qualidade em vídeo e linguagem chinesa, denominado Youku-mPLUG. Este conjunto foi coletado do Youku, um conhecido site chinês de compartilhamento de vídeos, com critérios rigorosos de segurança, diversidade e qualidade. O Youku-mPLUG contém 10 milhões de pares vídeo-texto em chinês, filtrados de 400 milhões de vídeos brutos, abrangendo uma ampla gama de 45 categorias diversas para pré-treinamento em larga escala. Além disso, para facilitar uma avaliação abrangente de modelos de vídeo e linguagem, construímos cuidadosamente os maiores benchmarks chineses anotados por humanos, cobrindo três tarefas populares de vídeo e linguagem: recuperação multimodal, legendagem de vídeos e classificação de categorias de vídeos. O Youku-mPLUG permite que pesquisadores conduzam pesquisas multimodais mais aprofundadas e desenvolvam melhores aplicações no futuro. Adicionalmente, lançamos modelos populares de pré-treinamento em vídeo e linguagem, ALPRO e mPLUG-2, e nosso modelo proposto de decodificador modularizado, mPLUG-video, pré-treinado no Youku-mPLUG. Experimentos mostram que modelos pré-treinados no Youku-mPLUG obtêm uma melhoria de até 23,1% na classificação de categorias de vídeos. Além disso, o mPLUG-video alcança um novo estado da arte nesses benchmarks, com 80,5% de precisão top-1 na classificação de categorias de vídeos e 68,9 de pontuação CIDEr na legendagem de vídeos. Por fim, escalamos o mPLUG-video com base no Bloomz congelado, utilizando apenas 1,7% dos parâmetros treináveis como LLM multimodal chinês, e demonstramos uma impressionante capacidade de compreensão de instruções e vídeos. O experimento de compreensão de instruções em zero-shot indica que o pré-treinamento com o Youku-mPLUG pode aprimorar a capacidade de compreender semântica visual geral e detalhada, reconhecer texto de cena e aproveitar conhecimento de domínio aberto.
English
To promote the development of Vision-Language Pre-training (VLP) and
multimodal Large Language Model (LLM) in the Chinese community, we firstly
release the largest public Chinese high-quality video-language dataset named
Youku-mPLUG, which is collected from Youku, a well-known Chinese video-sharing
website, with strict criteria of safety, diversity, and quality. Youku-mPLUG
contains 10 million Chinese video-text pairs filtered from 400 million raw
videos across a wide range of 45 diverse categories for large-scale
pre-training. In addition, to facilitate a comprehensive evaluation of
video-language models, we carefully build the largest human-annotated Chinese
benchmarks covering three popular video-language tasks of cross-modal
retrieval, video captioning, and video category classification. Youku-mPLUG can
enable researchers to conduct more in-depth multimodal research and develop
better applications in the future. Furthermore, we release popular
video-language pre-training models, ALPRO and mPLUG-2, and our proposed
modularized decoder-only model mPLUG-video pre-trained on Youku-mPLUG.
Experiments show that models pre-trained on Youku-mPLUG gain up to 23.1%
improvement in video category classification. Besides, mPLUG-video achieves a
new state-of-the-art result on these benchmarks with 80.5% top-1 accuracy in
video category classification and 68.9 CIDEr score in video captioning,
respectively. Finally, we scale up mPLUG-video based on the frozen Bloomz with
only 1.7% trainable parameters as Chinese multimodal LLM, and demonstrate
impressive instruction and video understanding ability. The zero-shot
instruction understanding experiment indicates that pretraining with
Youku-mPLUG can enhance the ability to comprehend overall and detailed visual
semantics, recognize scene text, and leverage open-domain knowledge.