COSMO: Modello Multimodale Semplificato a Contrasto con Pre-Addestramento Intervallato
COSMO: COntrastive Streamlined MultimOdal Model with Interleaved Pre-Training
January 1, 2024
Autori: Alex Jinpeng Wang, Linjie Li, Kevin Qinghong Lin, Jianfeng Wang, Kevin Lin, Zhengyuan Yang, Lijuan Wang, Mike Zheng Shou
cs.AI
Abstract
Nell'evoluzione del pre-addestramento visione-linguaggio, il passaggio dalla comprensione di testi brevi all'inclusione di contesti testuali estesi è fondamentale. Recenti modelli visione-linguaggio autoregressivi come Flamingo e PALME, sfruttando la capacità di gestire contesti lunghi dei Large Language Models, hanno eccelso in compiti di generazione di testo few-shot ma incontrano difficoltà nei compiti di allineamento. Per colmare questa lacuna, introduciamo la funzione di perdita contrastiva nei modelli di generazione di testo, presentando il framework COntrastive-Streamlined MultimOdal (\ModelName), che suddivide strategicamente il modello linguistico in componenti dedicate all'elaborazione unimodale del testo e alla gestione multimodale dei dati. \ModelName, il nostro framework unificato, combina elementi unimodali e multimodali, migliorando le prestazioni del modello per compiti che coinvolgono dati testuali e visivi e riducendo significativamente i parametri apprendibili. Tuttavia, questi modelli richiedono ampi dataset di testi lunghi, ma la disponibilità di dataset video-testo di alta qualità rimane limitata. Per colmare questa lacuna, questo lavoro introduce \VideoDatasetName, un dataset video-testo intervallato con didascalie complete, rappresentando un significativo passo avanti. Dimostrandone l'impatto, illustriamo come \ModelName migliori le prestazioni del modello nei compiti immagine-testo. Con il 34% dei parametri apprendibili e utilizzando il 72% dei dati disponibili, il nostro modello dimostra una superiorità significativa rispetto a OpenFlamingo. Ad esempio, nel compito di didascalia few-shot su Flickr, le prestazioni migliorano notevolmente dal 57,2% al 65%. I contributi di \ModelName e \VideoDatasetName sono evidenziati da significativi guadagni di prestazioni su 14 diversi dataset downstream che comprendono sia compiti immagine-testo che video-testo.
English
In the evolution of Vision-Language Pre-training, shifting from short-text
comprehension to encompassing extended textual contexts is pivotal. Recent
autoregressive vision-language models like flamingo, palme, leveraging
the long-context capability of Large Language Models, have excelled in few-shot
text generation tasks but face challenges in alignment tasks. Addressing this
gap, we introduce the contrastive loss into text generation models, presenting
the COntrastive-Streamlined MultimOdal framework (\ModelName), strategically
partitioning the language model into dedicated unimodal text processing and
adept multimodal data handling components. \ModelName, our unified framework,
merges unimodal and multimodal elements, enhancing model performance for tasks
involving textual and visual data while notably reducing learnable parameters.
However, these models demand extensive long-text datasets, yet the availability
of high-quality long-text video datasets remains limited. To bridge this gap,
this work introduces \VideoDatasetName, an inaugural interleaved video-text
dataset featuring comprehensive captions, marking a significant step forward.
Demonstrating its impact, we illustrate how enhances model
performance in image-text tasks. With 34% learnable parameters and utilizing
72\% of the available data, our model demonstrates significant superiority over
OpenFlamingo~openflamingo. For instance, in the 4-shot flickr captioning
task, performance notably improves from 57.2% to 65.\%. The contributions of
and are underscored by notable performance
gains across 14 diverse downstream datasets encompassing both image-text and
video-text tasks.