Youku-mPLUG: Um Conjunto de Dados em Larga Escala de Vídeo e Linguagem em Chinês com 10 Milhões de Amostras para Pré-treinamento e Benchmarking

Resumo

Para promover o desenvolvimento de pré-treinamento visão-linguagem (VLP) e modelos de linguagem multimodal de grande escala (LLM) na comunidade chinesa, lançamos inicialmente o maior conjunto de dados público de alta qualidade em vídeo e linguagem chinesa, denominado Youku-mPLUG. Este conjunto foi coletado do Youku, um conhecido site chinês de compartilhamento de vídeos, com critérios rigorosos de segurança, diversidade e qualidade. O Youku-mPLUG contém 10 milhões de pares vídeo-texto em chinês, filtrados de 400 milhões de vídeos brutos, abrangendo uma ampla gama de 45 categorias diversas para pré-treinamento em larga escala. Além disso, para facilitar uma avaliação abrangente de modelos de vídeo e linguagem, construímos cuidadosamente os maiores benchmarks chineses anotados por humanos, cobrindo três tarefas populares de vídeo e linguagem: recuperação multimodal, legendagem de vídeos e classificação de categorias de vídeos. O Youku-mPLUG permite que pesquisadores conduzam pesquisas multimodais mais aprofundadas e desenvolvam melhores aplicações no futuro. Adicionalmente, lançamos modelos populares de pré-treinamento em vídeo e linguagem, ALPRO e mPLUG-2, e nosso modelo proposto de decodificador modularizado, mPLUG-video, pré-treinado no Youku-mPLUG. Experimentos mostram que modelos pré-treinados no Youku-mPLUG obtêm uma melhoria de até 23,1% na classificação de categorias de vídeos. Além disso, o mPLUG-video alcança um novo estado da arte nesses benchmarks, com 80,5% de precisão top-1 na classificação de categorias de vídeos e 68,9 de pontuação CIDEr na legendagem de vídeos. Por fim, escalamos o mPLUG-video com base no Bloomz congelado, utilizando apenas 1,7% dos parâmetros treináveis como LLM multimodal chinês, e demonstramos uma impressionante capacidade de compreensão de instruções e vídeos. O experimento de compreensão de instruções em zero-shot indica que o pré-treinamento com o Youku-mPLUG pode aprimorar a capacidade de compreender semântica visual geral e detalhada, reconhecer texto de cena e aproveitar conhecimento de domínio aberto.

English

To promote the development of Vision-Language Pre-training (VLP) and multimodal Large Language Model (LLM) in the Chinese community, we firstly release the largest public Chinese high-quality video-language dataset named Youku-mPLUG, which is collected from Youku, a well-known Chinese video-sharing website, with strict criteria of safety, diversity, and quality. Youku-mPLUG contains 10 million Chinese video-text pairs filtered from 400 million raw videos across a wide range of 45 diverse categories for large-scale pre-training. In addition, to facilitate a comprehensive evaluation of video-language models, we carefully build the largest human-annotated Chinese benchmarks covering three popular video-language tasks of cross-modal retrieval, video captioning, and video category classification. Youku-mPLUG can enable researchers to conduct more in-depth multimodal research and develop better applications in the future. Furthermore, we release popular video-language pre-training models, ALPRO and mPLUG-2, and our proposed modularized decoder-only model mPLUG-video pre-trained on Youku-mPLUG. Experiments show that models pre-trained on Youku-mPLUG gain up to 23.1% improvement in video category classification. Besides, mPLUG-video achieves a new state-of-the-art result on these benchmarks with 80.5% top-1 accuracy in video category classification and 68.9 CIDEr score in video captioning, respectively. Finally, we scale up mPLUG-video based on the frozen Bloomz with only 1.7% trainable parameters as Chinese multimodal LLM, and demonstrate impressive instruction and video understanding ability. The zero-shot instruction understanding experiment indicates that pretraining with Youku-mPLUG can enhance the ability to comprehend overall and detailed visual semantics, recognize scene text, and leverage open-domain knowledge.

Youku-mPLUG: Um Conjunto de Dados em Larga Escala de Vídeo e Linguagem em Chinês com 10 Milhões de Amostras para Pré-treinamento e Benchmarking

Youku-mPLUG: A 10 Million Large-scale Chinese Video-Language Dataset for Pre-training and Benchmarks

Resumo

Support