Youku-mPLUG: Een grootschalige Chinese video-taaldataset van 10 miljoen voor pre-training en benchmarks

Samenvatting

Om de ontwikkeling van Vision-Language Pre-training (VLP) en multimodale Large Language Models (LLM) in de Chinese gemeenschap te bevorderen, brengen we als eerste het grootste openbare Chinese hoogwaardige video-taaldataset uit, genaamd Youku-mPLUG. Dit dataset is verzameld van Youku, een bekende Chinese video-sharingwebsite, met strikte criteria voor veiligheid, diversiteit en kwaliteit. Youku-mPLUG bevat 10 miljoen Chinese video-tekstparen, gefilterd uit 400 miljoen ruwe video's, verdeeld over een breed scala van 45 diverse categorieën voor grootschalige pre-training. Daarnaast hebben we zorgvuldig de grootste door mensen geannoteerde Chinese benchmarks opgebouwd, die drie populaire video-taal taken omvatten: cross-modale retrieval, video captioning en video categorieclassificatie. Youku-mPLUG stelt onderzoekers in staat om diepgaander multimodaal onderzoek uit te voeren en betere toepassingen te ontwikkelen in de toekomst. Verder brengen we populaire video-taal pre-trainingmodellen uit, ALPRO en mPLUG-2, en ons voorgestelde gemodulariseerde decoder-only model mPLUG-video, getraind op Youku-mPLUG. Experimenten tonen aan dat modellen die zijn getraind op Youku-mPLUG een verbetering van tot wel 23,1% behalen in video categorieclassificatie. Bovendien behaalt mPLUG-video een nieuw state-of-the-art resultaat op deze benchmarks met een top-1 nauwkeurigheid van 80,5% in video categorieclassificatie en een CIDEr score van 68,9 in video captioning. Ten slotte schalen we mPLUG-video op op basis van de bevroren Bloomz met slechts 1,7% trainbare parameters als Chinese multimodale LLM, en demonstreren indrukwekkende instructie- en videobegripvaardigheden. Het zero-shot instructiebegrip experiment geeft aan dat pre-training met Youku-mPLUG het vermogen kan verbeteren om algemene en gedetailleerde visuele semantiek te begrijpen, scènetekst te herkennen en open-domeinkennis te benutten.

English

To promote the development of Vision-Language Pre-training (VLP) and multimodal Large Language Model (LLM) in the Chinese community, we firstly release the largest public Chinese high-quality video-language dataset named Youku-mPLUG, which is collected from Youku, a well-known Chinese video-sharing website, with strict criteria of safety, diversity, and quality. Youku-mPLUG contains 10 million Chinese video-text pairs filtered from 400 million raw videos across a wide range of 45 diverse categories for large-scale pre-training. In addition, to facilitate a comprehensive evaluation of video-language models, we carefully build the largest human-annotated Chinese benchmarks covering three popular video-language tasks of cross-modal retrieval, video captioning, and video category classification. Youku-mPLUG can enable researchers to conduct more in-depth multimodal research and develop better applications in the future. Furthermore, we release popular video-language pre-training models, ALPRO and mPLUG-2, and our proposed modularized decoder-only model mPLUG-video pre-trained on Youku-mPLUG. Experiments show that models pre-trained on Youku-mPLUG gain up to 23.1% improvement in video category classification. Besides, mPLUG-video achieves a new state-of-the-art result on these benchmarks with 80.5% top-1 accuracy in video category classification and 68.9 CIDEr score in video captioning, respectively. Finally, we scale up mPLUG-video based on the frozen Bloomz with only 1.7% trainable parameters as Chinese multimodal LLM, and demonstrate impressive instruction and video understanding ability. The zero-shot instruction understanding experiment indicates that pretraining with Youku-mPLUG can enhance the ability to comprehend overall and detailed visual semantics, recognize scene text, and leverage open-domain knowledge.

Youku-mPLUG: Een grootschalige Chinese video-taaldataset van 10 miljoen voor pre-training en benchmarks

Youku-mPLUG: A 10 Million Large-scale Chinese Video-Language Dataset for Pre-training and Benchmarks

Samenvatting

Support