COSMO: COntrastiver Streamlined Multimodales Modell mit verschachteltem Vor-Training

papers.abstract

In der Entwicklung des Vision-Language Pre-trainings ist der Übergang vom Verständnis kurzer Texte zur Einbeziehung erweiterter textueller Kontexte entscheidend. Neuere autoregressive Vision-Language-Modelle wie Flamingo und Palme, die die Langkontextfähigkeit von Large Language Models nutzen, haben sich in Few-Shot-Textgenerierungsaufgaben hervorgetan, stehen jedoch bei Alignment-Aufgaben vor Herausforderungen. Um diese Lücke zu schließen, führen wir den Kontrastverlust in Textgenerierungsmodelle ein und präsentieren das COntrastive-Streamlined MultimOdal Framework (\ModelName), das das Sprachmodell strategisch in dedizierte unimodale Textverarbeitungs- und kompetente multimodale Datenverarbeitungskomponenten unterteilt. \ModelName, unser vereinheitlichtes Framework, vereint unimodale und multimodale Elemente und verbessert die Modellleistung bei Aufgaben, die textuelle und visuelle Daten betreffen, während gleichzeitig die Anzahl der lernbaren Parameter deutlich reduziert wird. Diese Modelle erfordern jedoch umfangreiche Langtextdatensätze, wobei die Verfügbarkeit hochwertiger Langtext-Videodatensätze nach wie vor begrenzt ist. Um diese Lücke zu schließen, stellt diese Arbeit \VideoDatasetName vor, einen erstmaligen verschachtelten Video-Text-Datensatz mit umfassenden Beschreibungen, der einen bedeutenden Fortschritt darstellt. Um dessen Auswirkungen zu demonstrieren, zeigen wir, wie die Modellleistung in Bild-Text-Aufgaben verbessert wird. Mit 34 % lernbaren Parametern und der Nutzung von 72 % der verfügbaren Daten zeigt unser Modell eine deutliche Überlegenheit gegenüber OpenFlamingo~openflamingo. Beispielsweise verbessert sich die Leistung bei der 4-Shot-Flickr-Beschriftungsaufgabe von 57,2 % auf 65 %. Die Beiträge von \ModelName und \VideoDatasetName werden durch bemerkenswerte Leistungssteigerungen in 14 verschiedenen Downstream-Datensätzen, die sowohl Bild-Text- als auch Video-Text-Aufgaben umfassen, unterstrichen.

English

In the evolution of Vision-Language Pre-training, shifting from short-text comprehension to encompassing extended textual contexts is pivotal. Recent autoregressive vision-language models like flamingo, palme, leveraging the long-context capability of Large Language Models, have excelled in few-shot text generation tasks but face challenges in alignment tasks. Addressing this gap, we introduce the contrastive loss into text generation models, presenting the COntrastive-Streamlined MultimOdal framework (\ModelName), strategically partitioning the language model into dedicated unimodal text processing and adept multimodal data handling components. \ModelName, our unified framework, merges unimodal and multimodal elements, enhancing model performance for tasks involving textual and visual data while notably reducing learnable parameters. However, these models demand extensive long-text datasets, yet the availability of high-quality long-text video datasets remains limited. To bridge this gap, this work introduces \VideoDatasetName, an inaugural interleaved video-text dataset featuring comprehensive captions, marking a significant step forward. Demonstrating its impact, we illustrate how enhances model performance in image-text tasks. With 34% learnable parameters and utilizing 72\% of the available data, our model demonstrates significant superiority over OpenFlamingo~openflamingo. For instance, in the 4-shot flickr captioning task, performance notably improves from 57.2% to 65.\%. The contributions of and are underscored by notable performance gains across 14 diverse downstream datasets encompassing both image-text and video-text tasks.

COSMO: COntrastiver Streamlined Multimodales Modell mit verschachteltem Vor-Training

COSMO: COntrastive Streamlined MultimOdal Model with Interleaved Pre-Training

papers.abstract

Support