COSMO : Modèle Multimodal Simplifié par Contraste avec Pré-entraînement Entrelacé
COSMO: COntrastive Streamlined MultimOdal Model with Interleaved Pre-Training
January 1, 2024
Auteurs: Alex Jinpeng Wang, Linjie Li, Kevin Qinghong Lin, Jianfeng Wang, Kevin Lin, Zhengyuan Yang, Lijuan Wang, Mike Zheng Shou
cs.AI
Résumé
Dans l'évolution du pré-entraînement vision-langage, le passage de la compréhension de textes courts à la prise en compte de contextes textuels étendus est crucial. Les modèles vision-langage autoregressifs récents comme Flamingo et PALM, exploitant la capacité des grands modèles de langage à gérer de longs contextes, ont excellé dans les tâches de génération de texte en few-shot mais rencontrent des difficultés dans les tâches d'alignement. Pour combler cette lacune, nous introduisons la fonction de perte contrastive dans les modèles de génération de texte, présentant le cadre multimodal rationalisé par contraste (\ModelName), qui partitionne stratégiquement le modèle de langage en composants dédiés au traitement unimodal du texte et à la gestion experte des données multimodales. \ModelName, notre cadre unifié, fusionne les éléments unimodaux et multimodaux, améliorant les performances du modèle pour les tâches impliquant des données textuelles et visuelles tout en réduisant notablement le nombre de paramètres apprenables. Cependant, ces modèles nécessitent des ensembles de données de textes longs, mais la disponibilité de jeux de données vidéo-textes de haute qualité reste limitée. Pour combler cette lacune, ce travail introduit \VideoDatasetName, un premier ensemble de données vidéo-textes entrelacés comportant des légendes complètes, marquant une avancée significative. Illustrant son impact, nous montrons comment \VideoDatasetName améliore les performances du modèle dans les tâches image-texte. Avec 34 % de paramètres apprenables et en utilisant 72 % des données disponibles, notre modèle démontre une supériorité significative par rapport à OpenFlamingo~openflamingo. Par exemple, dans la tâche de légendage Flickr en 4-shot, les performances passent de 57,2 % à 65,1 %. Les contributions de \ModelName et \VideoDatasetName sont mises en évidence par des gains de performances notables sur 14 ensembles de données en aval diversifiés, englobant à la fois des tâches image-texte et vidéo-texte.
English
In the evolution of Vision-Language Pre-training, shifting from short-text
comprehension to encompassing extended textual contexts is pivotal. Recent
autoregressive vision-language models like flamingo, palme, leveraging
the long-context capability of Large Language Models, have excelled in few-shot
text generation tasks but face challenges in alignment tasks. Addressing this
gap, we introduce the contrastive loss into text generation models, presenting
the COntrastive-Streamlined MultimOdal framework (\ModelName), strategically
partitioning the language model into dedicated unimodal text processing and
adept multimodal data handling components. \ModelName, our unified framework,
merges unimodal and multimodal elements, enhancing model performance for tasks
involving textual and visual data while notably reducing learnable parameters.
However, these models demand extensive long-text datasets, yet the availability
of high-quality long-text video datasets remains limited. To bridge this gap,
this work introduces \VideoDatasetName, an inaugural interleaved video-text
dataset featuring comprehensive captions, marking a significant step forward.
Demonstrating its impact, we illustrate how enhances model
performance in image-text tasks. With 34% learnable parameters and utilizing
72\% of the available data, our model demonstrates significant superiority over
OpenFlamingo~openflamingo. For instance, in the 4-shot flickr captioning
task, performance notably improves from 57.2% to 65.\%. The contributions of
and are underscored by notable performance
gains across 14 diverse downstream datasets encompassing both image-text and
video-text tasks.