ChatPaper.aiChatPaper

Youku-mPLUG: Um Conjunto de Dados em Larga Escala de Vídeo e Linguagem em Chinês com 10 Milhões de Amostras para Pré-treinamento e Benchmarking

Youku-mPLUG: A 10 Million Large-scale Chinese Video-Language Dataset for Pre-training and Benchmarks

June 7, 2023
Autores: Haiyang Xu, Qinghao Ye, Xuan Wu, Ming Yan, Yuan Miao, Jiabo Ye, Guohai Xu, Anwen Hu, Yaya Shi, Guangwei Xu, Chenliang Li, Qi Qian, Maofei Que, Ji Zhang, Xiao Zeng, Fei Huang
cs.AI

Resumo

Para promover o desenvolvimento de pré-treinamento visão-linguagem (VLP) e modelos de linguagem multimodal de grande escala (LLM) na comunidade chinesa, lançamos inicialmente o maior conjunto de dados público de alta qualidade em vídeo e linguagem chinesa, denominado Youku-mPLUG. Este conjunto foi coletado do Youku, um conhecido site chinês de compartilhamento de vídeos, com critérios rigorosos de segurança, diversidade e qualidade. O Youku-mPLUG contém 10 milhões de pares vídeo-texto em chinês, filtrados de 400 milhões de vídeos brutos, abrangendo uma ampla gama de 45 categorias diversas para pré-treinamento em larga escala. Além disso, para facilitar uma avaliação abrangente de modelos de vídeo e linguagem, construímos cuidadosamente os maiores benchmarks chineses anotados por humanos, cobrindo três tarefas populares de vídeo e linguagem: recuperação multimodal, legendagem de vídeos e classificação de categorias de vídeos. O Youku-mPLUG permite que pesquisadores conduzam pesquisas multimodais mais aprofundadas e desenvolvam melhores aplicações no futuro. Adicionalmente, lançamos modelos populares de pré-treinamento em vídeo e linguagem, ALPRO e mPLUG-2, e nosso modelo proposto de decodificador modularizado, mPLUG-video, pré-treinado no Youku-mPLUG. Experimentos mostram que modelos pré-treinados no Youku-mPLUG obtêm uma melhoria de até 23,1% na classificação de categorias de vídeos. Além disso, o mPLUG-video alcança um novo estado da arte nesses benchmarks, com 80,5% de precisão top-1 na classificação de categorias de vídeos e 68,9 de pontuação CIDEr na legendagem de vídeos. Por fim, escalamos o mPLUG-video com base no Bloomz congelado, utilizando apenas 1,7% dos parâmetros treináveis como LLM multimodal chinês, e demonstramos uma impressionante capacidade de compreensão de instruções e vídeos. O experimento de compreensão de instruções em zero-shot indica que o pré-treinamento com o Youku-mPLUG pode aprimorar a capacidade de compreender semântica visual geral e detalhada, reconhecer texto de cena e aproveitar conhecimento de domínio aberto.
English
To promote the development of Vision-Language Pre-training (VLP) and multimodal Large Language Model (LLM) in the Chinese community, we firstly release the largest public Chinese high-quality video-language dataset named Youku-mPLUG, which is collected from Youku, a well-known Chinese video-sharing website, with strict criteria of safety, diversity, and quality. Youku-mPLUG contains 10 million Chinese video-text pairs filtered from 400 million raw videos across a wide range of 45 diverse categories for large-scale pre-training. In addition, to facilitate a comprehensive evaluation of video-language models, we carefully build the largest human-annotated Chinese benchmarks covering three popular video-language tasks of cross-modal retrieval, video captioning, and video category classification. Youku-mPLUG can enable researchers to conduct more in-depth multimodal research and develop better applications in the future. Furthermore, we release popular video-language pre-training models, ALPRO and mPLUG-2, and our proposed modularized decoder-only model mPLUG-video pre-trained on Youku-mPLUG. Experiments show that models pre-trained on Youku-mPLUG gain up to 23.1% improvement in video category classification. Besides, mPLUG-video achieves a new state-of-the-art result on these benchmarks with 80.5% top-1 accuracy in video category classification and 68.9 CIDEr score in video captioning, respectively. Finally, we scale up mPLUG-video based on the frozen Bloomz with only 1.7% trainable parameters as Chinese multimodal LLM, and demonstrate impressive instruction and video understanding ability. The zero-shot instruction understanding experiment indicates that pretraining with Youku-mPLUG can enhance the ability to comprehend overall and detailed visual semantics, recognize scene text, and leverage open-domain knowledge.
PDF20December 15, 2024