Youku-mPLUG: Un Dataset Cinese Video-Linguistico su Larga Scala da 10 Milioni di Esempi per Pre-addestramento e Benchmark
Youku-mPLUG: A 10 Million Large-scale Chinese Video-Language Dataset for Pre-training and Benchmarks
June 7, 2023
Autori: Haiyang Xu, Qinghao Ye, Xuan Wu, Ming Yan, Yuan Miao, Jiabo Ye, Guohai Xu, Anwen Hu, Yaya Shi, Guangwei Xu, Chenliang Li, Qi Qian, Maofei Que, Ji Zhang, Xiao Zeng, Fei Huang
cs.AI
Abstract
Per promuovere lo sviluppo del pre-addestramento visione-linguaggio (VLP) e dei modelli linguistici multimodali di grandi dimensioni (LLM) nella comunità cinese, rilasciamo per la prima volta il più grande dataset pubblico cinese di alta qualità video-linguaggio, denominato Youku-mPLUG. Questo dataset è stato raccolto da Youku, un noto sito cinese di condivisione video, con criteri rigorosi di sicurezza, diversità e qualità. Youku-mPLUG contiene 10 milioni di coppie video-testo cinesi filtrate da 400 milioni di video grezzi, coprendo un'ampia gamma di 45 categorie diverse per il pre-addestramento su larga scala. Inoltre, per facilitare una valutazione completa dei modelli video-linguaggio, abbiamo costruito con cura i più grandi benchmark cinesi annotati manualmente, che coprono tre popolari task video-linguaggio: recupero cross-modale, descrizione video e classificazione delle categorie video. Youku-mPLUG consente ai ricercatori di condurre ricerche multimodali più approfondite e di sviluppare applicazioni migliori in futuro. Inoltre, rilasciamo i popolari modelli di pre-addestramento video-linguaggio, ALPRO e mPLUG-2, e il nostro modello proposto con solo decoder modulare, mPLUG-video, pre-addestrato su Youku-mPLUG. Gli esperimenti mostrano che i modelli pre-addestrati su Youku-mPLUG ottengono un miglioramento fino al 23,1% nella classificazione delle categorie video. Inoltre, mPLUG-video raggiunge un nuovo stato dell'arte su questi benchmark, con un'accuratezza top-1 dell'80,5% nella classificazione delle categorie video e un punteggio CIDEr di 68,9 nella descrizione video. Infine, scaliamo mPLUG-video basandoci sul Bloomz congelato, con solo l'1,7% di parametri addestrabili, come LLM multimodale cinese, dimostrando una notevole capacità di comprensione delle istruzioni e dei video. L'esperimento di comprensione delle istruzioni zero-shot indica che il pre-addestramento con Youku-mPLUG può migliorare la capacità di comprendere la semantica visiva complessiva e dettagliata, riconoscere il testo nelle scene e sfruttare la conoscenza open-domain.
English
To promote the development of Vision-Language Pre-training (VLP) and
multimodal Large Language Model (LLM) in the Chinese community, we firstly
release the largest public Chinese high-quality video-language dataset named
Youku-mPLUG, which is collected from Youku, a well-known Chinese video-sharing
website, with strict criteria of safety, diversity, and quality. Youku-mPLUG
contains 10 million Chinese video-text pairs filtered from 400 million raw
videos across a wide range of 45 diverse categories for large-scale
pre-training. In addition, to facilitate a comprehensive evaluation of
video-language models, we carefully build the largest human-annotated Chinese
benchmarks covering three popular video-language tasks of cross-modal
retrieval, video captioning, and video category classification. Youku-mPLUG can
enable researchers to conduct more in-depth multimodal research and develop
better applications in the future. Furthermore, we release popular
video-language pre-training models, ALPRO and mPLUG-2, and our proposed
modularized decoder-only model mPLUG-video pre-trained on Youku-mPLUG.
Experiments show that models pre-trained on Youku-mPLUG gain up to 23.1%
improvement in video category classification. Besides, mPLUG-video achieves a
new state-of-the-art result on these benchmarks with 80.5% top-1 accuracy in
video category classification and 68.9 CIDEr score in video captioning,
respectively. Finally, we scale up mPLUG-video based on the frozen Bloomz with
only 1.7% trainable parameters as Chinese multimodal LLM, and demonstrate
impressive instruction and video understanding ability. The zero-shot
instruction understanding experiment indicates that pretraining with
Youku-mPLUG can enhance the ability to comprehend overall and detailed visual
semantics, recognize scene text, and leverage open-domain knowledge.