COSMO: COntrastiver Streamlined Multimodales Modell mit verschachteltem Vor-Training
COSMO: COntrastive Streamlined MultimOdal Model with Interleaved Pre-Training
January 1, 2024
Autoren: Alex Jinpeng Wang, Linjie Li, Kevin Qinghong Lin, Jianfeng Wang, Kevin Lin, Zhengyuan Yang, Lijuan Wang, Mike Zheng Shou
cs.AI
Zusammenfassung
In der Entwicklung des Vision-Language Pre-trainings ist der Übergang vom Verständnis kurzer Texte zur Einbeziehung erweiterter textueller Kontexte entscheidend. Neuere autoregressive Vision-Language-Modelle wie Flamingo und Palme, die die Langkontextfähigkeit von Large Language Models nutzen, haben sich in Few-Shot-Textgenerierungsaufgaben hervorgetan, stehen jedoch bei Alignment-Aufgaben vor Herausforderungen. Um diese Lücke zu schließen, führen wir den Kontrastverlust in Textgenerierungsmodelle ein und präsentieren das COntrastive-Streamlined MultimOdal Framework (\ModelName), das das Sprachmodell strategisch in dedizierte unimodale Textverarbeitungs- und kompetente multimodale Datenverarbeitungskomponenten unterteilt. \ModelName, unser vereinheitlichtes Framework, vereint unimodale und multimodale Elemente und verbessert die Modellleistung bei Aufgaben, die textuelle und visuelle Daten betreffen, während gleichzeitig die Anzahl der lernbaren Parameter deutlich reduziert wird. Diese Modelle erfordern jedoch umfangreiche Langtextdatensätze, wobei die Verfügbarkeit hochwertiger Langtext-Videodatensätze nach wie vor begrenzt ist. Um diese Lücke zu schließen, stellt diese Arbeit \VideoDatasetName vor, einen erstmaligen verschachtelten Video-Text-Datensatz mit umfassenden Beschreibungen, der einen bedeutenden Fortschritt darstellt. Um dessen Auswirkungen zu demonstrieren, zeigen wir, wie die Modellleistung in Bild-Text-Aufgaben verbessert wird. Mit 34 % lernbaren Parametern und der Nutzung von 72 % der verfügbaren Daten zeigt unser Modell eine deutliche Überlegenheit gegenüber OpenFlamingo~openflamingo. Beispielsweise verbessert sich die Leistung bei der 4-Shot-Flickr-Beschriftungsaufgabe von 57,2 % auf 65 %. Die Beiträge von \ModelName und \VideoDatasetName werden durch bemerkenswerte Leistungssteigerungen in 14 verschiedenen Downstream-Datensätzen, die sowohl Bild-Text- als auch Video-Text-Aufgaben umfassen, unterstrichen.
English
In the evolution of Vision-Language Pre-training, shifting from short-text
comprehension to encompassing extended textual contexts is pivotal. Recent
autoregressive vision-language models like flamingo, palme, leveraging
the long-context capability of Large Language Models, have excelled in few-shot
text generation tasks but face challenges in alignment tasks. Addressing this
gap, we introduce the contrastive loss into text generation models, presenting
the COntrastive-Streamlined MultimOdal framework (\ModelName), strategically
partitioning the language model into dedicated unimodal text processing and
adept multimodal data handling components. \ModelName, our unified framework,
merges unimodal and multimodal elements, enhancing model performance for tasks
involving textual and visual data while notably reducing learnable parameters.
However, these models demand extensive long-text datasets, yet the availability
of high-quality long-text video datasets remains limited. To bridge this gap,
this work introduces \VideoDatasetName, an inaugural interleaved video-text
dataset featuring comprehensive captions, marking a significant step forward.
Demonstrating its impact, we illustrate how enhances model
performance in image-text tasks. With 34% learnable parameters and utilizing
72\% of the available data, our model demonstrates significant superiority over
OpenFlamingo~openflamingo. For instance, in the 4-shot flickr captioning
task, performance notably improves from 57.2% to 65.\%. The contributions of
and are underscored by notable performance
gains across 14 diverse downstream datasets encompassing both image-text and
video-text tasks.