Youku-mPLUG: Un Dataset Cinese Video-Linguistico su Larga Scala da 10 Milioni di Esempi per Pre-addestramento e Benchmark

Abstract

Per promuovere lo sviluppo del pre-addestramento visione-linguaggio (VLP) e dei modelli linguistici multimodali di grandi dimensioni (LLM) nella comunità cinese, rilasciamo per la prima volta il più grande dataset pubblico cinese di alta qualità video-linguaggio, denominato Youku-mPLUG. Questo dataset è stato raccolto da Youku, un noto sito cinese di condivisione video, con criteri rigorosi di sicurezza, diversità e qualità. Youku-mPLUG contiene 10 milioni di coppie video-testo cinesi filtrate da 400 milioni di video grezzi, coprendo un'ampia gamma di 45 categorie diverse per il pre-addestramento su larga scala. Inoltre, per facilitare una valutazione completa dei modelli video-linguaggio, abbiamo costruito con cura i più grandi benchmark cinesi annotati manualmente, che coprono tre popolari task video-linguaggio: recupero cross-modale, descrizione video e classificazione delle categorie video. Youku-mPLUG consente ai ricercatori di condurre ricerche multimodali più approfondite e di sviluppare applicazioni migliori in futuro. Inoltre, rilasciamo i popolari modelli di pre-addestramento video-linguaggio, ALPRO e mPLUG-2, e il nostro modello proposto con solo decoder modulare, mPLUG-video, pre-addestrato su Youku-mPLUG. Gli esperimenti mostrano che i modelli pre-addestrati su Youku-mPLUG ottengono un miglioramento fino al 23,1% nella classificazione delle categorie video. Inoltre, mPLUG-video raggiunge un nuovo stato dell'arte su questi benchmark, con un'accuratezza top-1 dell'80,5% nella classificazione delle categorie video e un punteggio CIDEr di 68,9 nella descrizione video. Infine, scaliamo mPLUG-video basandoci sul Bloomz congelato, con solo l'1,7% di parametri addestrabili, come LLM multimodale cinese, dimostrando una notevole capacità di comprensione delle istruzioni e dei video. L'esperimento di comprensione delle istruzioni zero-shot indica che il pre-addestramento con Youku-mPLUG può migliorare la capacità di comprendere la semantica visiva complessiva e dettagliata, riconoscere il testo nelle scene e sfruttare la conoscenza open-domain.

English

To promote the development of Vision-Language Pre-training (VLP) and multimodal Large Language Model (LLM) in the Chinese community, we firstly release the largest public Chinese high-quality video-language dataset named Youku-mPLUG, which is collected from Youku, a well-known Chinese video-sharing website, with strict criteria of safety, diversity, and quality. Youku-mPLUG contains 10 million Chinese video-text pairs filtered from 400 million raw videos across a wide range of 45 diverse categories for large-scale pre-training. In addition, to facilitate a comprehensive evaluation of video-language models, we carefully build the largest human-annotated Chinese benchmarks covering three popular video-language tasks of cross-modal retrieval, video captioning, and video category classification. Youku-mPLUG can enable researchers to conduct more in-depth multimodal research and develop better applications in the future. Furthermore, we release popular video-language pre-training models, ALPRO and mPLUG-2, and our proposed modularized decoder-only model mPLUG-video pre-trained on Youku-mPLUG. Experiments show that models pre-trained on Youku-mPLUG gain up to 23.1% improvement in video category classification. Besides, mPLUG-video achieves a new state-of-the-art result on these benchmarks with 80.5% top-1 accuracy in video category classification and 68.9 CIDEr score in video captioning, respectively. Finally, we scale up mPLUG-video based on the frozen Bloomz with only 1.7% trainable parameters as Chinese multimodal LLM, and demonstrate impressive instruction and video understanding ability. The zero-shot instruction understanding experiment indicates that pretraining with Youku-mPLUG can enhance the ability to comprehend overall and detailed visual semantics, recognize scene text, and leverage open-domain knowledge.

Youku-mPLUG: Un Dataset Cinese Video-Linguistico su Larga Scala da 10 Milioni di Esempi per Pre-addestramento e Benchmark

Youku-mPLUG: A 10 Million Large-scale Chinese Video-Language Dataset for Pre-training and Benchmarks

Abstract

Support