COSMO: COntrastief Gestroomlijnd Multimodaal Model met Geïnterleefde Voorafgaande Training
COSMO: COntrastive Streamlined MultimOdal Model with Interleaved Pre-Training
January 1, 2024
Auteurs: Alex Jinpeng Wang, Linjie Li, Kevin Qinghong Lin, Jianfeng Wang, Kevin Lin, Zhengyuan Yang, Lijuan Wang, Mike Zheng Shou
cs.AI
Samenvatting
In de evolutie van Vision-Language Pre-training is de verschuiving van korte-tekstbegrip naar het omvatten van uitgebreide tekstuele contexten cruciaal. Recente autoregressieve vision-language modellen zoals Flamingo en PALME, die gebruikmaken van de lange-contextcapaciteit van Large Language Models, hebben uitblinkt in few-shot tekstgeneratietaken, maar kampen met uitdagingen in alignmenttaken. Om deze kloof te overbruggen, introduceren we het contrastieve verlies in tekstgeneratiemodellen en presenteren het COntrastive-Streamlined MultimOdal framework (\ModelName), waarbij het taalmodel strategisch wordt opgedeeld in toegewijde unimodale tekstverwerking en bekwame multimodale gegevensverwerkingscomponenten. \ModelName, ons geïntegreerde framework, combineert unimodale en multimodale elementen, wat de modelprestaties verbetert voor taken die tekstuele en visuele gegevens betreffen, terwijl het aantal leerbare parameters aanzienlijk wordt verminderd. Deze modellen vereisen echter uitgebreide lange-tekst datasets, maar de beschikbaarheid van hoogwaardige lange-tekst videodatasets blijft beperkt. Om deze kloof te overbruggen, introduceert dit werk \VideoDatasetName, een baanbrekende interleaved video-tekst dataset met uitgebreide bijschriften, wat een belangrijke stap vooruit betekent. We demonstreren de impact ervan door te illustreren hoe het de modelprestaties verbetert in beeld-tekst taken. Met 34% leerbare parameters en gebruikmakend van 72% van de beschikbare gegevens, toont ons model een aanzienlijke superioriteit ten opzichte van OpenFlamingo~openflamingo. Bijvoorbeeld, in de 4-shot Flickr-captioningtaak verbetert de prestatie aanzienlijk van 57,2% naar 65%. De bijdragen van \ModelName en \VideoDatasetName worden onderstreept door opmerkelijke prestatieverbeteringen over 14 diverse downstream datasets, die zowel beeld-tekst als video-tekst taken omvatten.
English
In the evolution of Vision-Language Pre-training, shifting from short-text
comprehension to encompassing extended textual contexts is pivotal. Recent
autoregressive vision-language models like flamingo, palme, leveraging
the long-context capability of Large Language Models, have excelled in few-shot
text generation tasks but face challenges in alignment tasks. Addressing this
gap, we introduce the contrastive loss into text generation models, presenting
the COntrastive-Streamlined MultimOdal framework (\ModelName), strategically
partitioning the language model into dedicated unimodal text processing and
adept multimodal data handling components. \ModelName, our unified framework,
merges unimodal and multimodal elements, enhancing model performance for tasks
involving textual and visual data while notably reducing learnable parameters.
However, these models demand extensive long-text datasets, yet the availability
of high-quality long-text video datasets remains limited. To bridge this gap,
this work introduces \VideoDatasetName, an inaugural interleaved video-text
dataset featuring comprehensive captions, marking a significant step forward.
Demonstrating its impact, we illustrate how enhances model
performance in image-text tasks. With 34% learnable parameters and utilizing
72\% of the available data, our model demonstrates significant superiority over
OpenFlamingo~openflamingo. For instance, in the 4-shot flickr captioning
task, performance notably improves from 57.2% to 65.\%. The contributions of
and are underscored by notable performance
gains across 14 diverse downstream datasets encompassing both image-text and
video-text tasks.