ChatPaper.aiChatPaper

Youku-mPLUG : Un ensemble de données vidéo-texte chinois à grande échelle de 10 millions d'éléments pour le pré-entraînement et l'évaluation

Youku-mPLUG: A 10 Million Large-scale Chinese Video-Language Dataset for Pre-training and Benchmarks

June 7, 2023
Auteurs: Haiyang Xu, Qinghao Ye, Xuan Wu, Ming Yan, Yuan Miao, Jiabo Ye, Guohai Xu, Anwen Hu, Yaya Shi, Guangwei Xu, Chenliang Li, Qi Qian, Maofei Que, Ji Zhang, Xiao Zeng, Fei Huang
cs.AI

Résumé

Pour promouvoir le développement du pré-entraînement vision-langage (VLP) et des modèles de langage multimodaux à grande échelle (LLM) dans la communauté chinoise, nous publions en premier lieu le plus grand ensemble de données public chinois de haute qualité pour les vidéos et le langage, nommé Youku-mPLUG. Cet ensemble est collecté à partir de Youku, une plateforme chinoise bien connue de partage de vidéos, avec des critères stricts en matière de sécurité, de diversité et de qualité. Youku-mPLUG contient 10 millions de paires vidéo-texte en chinois, filtrées à partir de 400 millions de vidéos brutes couvrant un large éventail de 45 catégories diverses, pour un pré-entraînement à grande échelle. De plus, pour faciliter une évaluation complète des modèles vidéo-langage, nous avons soigneusement construit les plus grands benchmarks annotés manuellement en chinois, couvrant trois tâches populaires de vidéo-langage : la recherche intermodale, la génération de légendes vidéo et la classification de catégories vidéo. Youku-mPLUG permet aux chercheurs de mener des recherches multimodales plus approfondies et de développer de meilleures applications à l'avenir. Par ailleurs, nous publions des modèles de pré-entraînement vidéo-langage populaires, ALPRO et mPLUG-2, ainsi que notre modèle proposé à décodeur modulaire, mPLUG-video, pré-entraîné sur Youku-mPLUG. Les expériences montrent que les modèles pré-entraînés sur Youku-mPLUG obtiennent une amélioration allant jusqu'à 23,1 % dans la classification de catégories vidéo. De plus, mPLUG-video établit un nouveau record sur ces benchmarks avec une précision top-1 de 80,5 % dans la classification de catégories vidéo et un score CIDEr de 68,9 dans la génération de légendes vidéo. Enfin, nous augmentons l'échelle de mPLUG-video en nous basant sur le modèle Bloomz gelé, avec seulement 1,7 % de paramètres entraînables, pour en faire un LLM multimodal chinois, démontrant une capacité impressionnante de compréhension des instructions et des vidéos. L'expérience de compréhension d'instructions en zero-shot indique que le pré-entraînement avec Youku-mPLUG peut améliorer la capacité à comprendre la sémantique visuelle globale et détaillée, à reconnaître le texte de scène et à exploiter les connaissances du domaine ouvert.
English
To promote the development of Vision-Language Pre-training (VLP) and multimodal Large Language Model (LLM) in the Chinese community, we firstly release the largest public Chinese high-quality video-language dataset named Youku-mPLUG, which is collected from Youku, a well-known Chinese video-sharing website, with strict criteria of safety, diversity, and quality. Youku-mPLUG contains 10 million Chinese video-text pairs filtered from 400 million raw videos across a wide range of 45 diverse categories for large-scale pre-training. In addition, to facilitate a comprehensive evaluation of video-language models, we carefully build the largest human-annotated Chinese benchmarks covering three popular video-language tasks of cross-modal retrieval, video captioning, and video category classification. Youku-mPLUG can enable researchers to conduct more in-depth multimodal research and develop better applications in the future. Furthermore, we release popular video-language pre-training models, ALPRO and mPLUG-2, and our proposed modularized decoder-only model mPLUG-video pre-trained on Youku-mPLUG. Experiments show that models pre-trained on Youku-mPLUG gain up to 23.1% improvement in video category classification. Besides, mPLUG-video achieves a new state-of-the-art result on these benchmarks with 80.5% top-1 accuracy in video category classification and 68.9 CIDEr score in video captioning, respectively. Finally, we scale up mPLUG-video based on the frozen Bloomz with only 1.7% trainable parameters as Chinese multimodal LLM, and demonstrate impressive instruction and video understanding ability. The zero-shot instruction understanding experiment indicates that pretraining with Youku-mPLUG can enhance the ability to comprehend overall and detailed visual semantics, recognize scene text, and leverage open-domain knowledge.
PDF20December 15, 2024