ChatPaper.aiChatPaper

Youku-mPLUG: Un Dataset Cinese Video-Linguistico su Larga Scala da 10 Milioni di Esempi per Pre-addestramento e Benchmark

Youku-mPLUG: A 10 Million Large-scale Chinese Video-Language Dataset for Pre-training and Benchmarks

June 7, 2023
Autori: Haiyang Xu, Qinghao Ye, Xuan Wu, Ming Yan, Yuan Miao, Jiabo Ye, Guohai Xu, Anwen Hu, Yaya Shi, Guangwei Xu, Chenliang Li, Qi Qian, Maofei Que, Ji Zhang, Xiao Zeng, Fei Huang
cs.AI

Abstract

Per promuovere lo sviluppo del pre-addestramento visione-linguaggio (VLP) e dei modelli linguistici multimodali di grandi dimensioni (LLM) nella comunità cinese, rilasciamo per la prima volta il più grande dataset pubblico cinese di alta qualità video-linguaggio, denominato Youku-mPLUG. Questo dataset è stato raccolto da Youku, un noto sito cinese di condivisione video, con criteri rigorosi di sicurezza, diversità e qualità. Youku-mPLUG contiene 10 milioni di coppie video-testo cinesi filtrate da 400 milioni di video grezzi, coprendo un'ampia gamma di 45 categorie diverse per il pre-addestramento su larga scala. Inoltre, per facilitare una valutazione completa dei modelli video-linguaggio, abbiamo costruito con cura i più grandi benchmark cinesi annotati manualmente, che coprono tre popolari task video-linguaggio: recupero cross-modale, descrizione video e classificazione delle categorie video. Youku-mPLUG consente ai ricercatori di condurre ricerche multimodali più approfondite e di sviluppare applicazioni migliori in futuro. Inoltre, rilasciamo i popolari modelli di pre-addestramento video-linguaggio, ALPRO e mPLUG-2, e il nostro modello proposto con solo decoder modulare, mPLUG-video, pre-addestrato su Youku-mPLUG. Gli esperimenti mostrano che i modelli pre-addestrati su Youku-mPLUG ottengono un miglioramento fino al 23,1% nella classificazione delle categorie video. Inoltre, mPLUG-video raggiunge un nuovo stato dell'arte su questi benchmark, con un'accuratezza top-1 dell'80,5% nella classificazione delle categorie video e un punteggio CIDEr di 68,9 nella descrizione video. Infine, scaliamo mPLUG-video basandoci sul Bloomz congelato, con solo l'1,7% di parametri addestrabili, come LLM multimodale cinese, dimostrando una notevole capacità di comprensione delle istruzioni e dei video. L'esperimento di comprensione delle istruzioni zero-shot indica che il pre-addestramento con Youku-mPLUG può migliorare la capacità di comprendere la semantica visiva complessiva e dettagliata, riconoscere il testo nelle scene e sfruttare la conoscenza open-domain.
English
To promote the development of Vision-Language Pre-training (VLP) and multimodal Large Language Model (LLM) in the Chinese community, we firstly release the largest public Chinese high-quality video-language dataset named Youku-mPLUG, which is collected from Youku, a well-known Chinese video-sharing website, with strict criteria of safety, diversity, and quality. Youku-mPLUG contains 10 million Chinese video-text pairs filtered from 400 million raw videos across a wide range of 45 diverse categories for large-scale pre-training. In addition, to facilitate a comprehensive evaluation of video-language models, we carefully build the largest human-annotated Chinese benchmarks covering three popular video-language tasks of cross-modal retrieval, video captioning, and video category classification. Youku-mPLUG can enable researchers to conduct more in-depth multimodal research and develop better applications in the future. Furthermore, we release popular video-language pre-training models, ALPRO and mPLUG-2, and our proposed modularized decoder-only model mPLUG-video pre-trained on Youku-mPLUG. Experiments show that models pre-trained on Youku-mPLUG gain up to 23.1% improvement in video category classification. Besides, mPLUG-video achieves a new state-of-the-art result on these benchmarks with 80.5% top-1 accuracy in video category classification and 68.9 CIDEr score in video captioning, respectively. Finally, we scale up mPLUG-video based on the frozen Bloomz with only 1.7% trainable parameters as Chinese multimodal LLM, and demonstrate impressive instruction and video understanding ability. The zero-shot instruction understanding experiment indicates that pretraining with Youku-mPLUG can enhance the ability to comprehend overall and detailed visual semantics, recognize scene text, and leverage open-domain knowledge.
PDF20December 15, 2024