COSMO: Modelo Multimodal Simplificado com Contraste e Pré-treinamento Intercalado
COSMO: COntrastive Streamlined MultimOdal Model with Interleaved Pre-Training
January 1, 2024
Autores: Alex Jinpeng Wang, Linjie Li, Kevin Qinghong Lin, Jianfeng Wang, Kevin Lin, Zhengyuan Yang, Lijuan Wang, Mike Zheng Shou
cs.AI
Resumo
Na evolução do Pré-treinamento Visão-Linguagem, a transição da compreensão de textos curtos para o abrangimento de contextos textuais extensos é crucial. Modelos autoregressivos recentes de visão-linguagem, como Flamingo e Palme, que aproveitam a capacidade de contexto longo dos Modelos de Linguagem de Grande Escala, têm se destacado em tarefas de geração de texto com poucos exemplos, mas enfrentam desafios em tarefas de alinhamento. Para abordar essa lacuna, introduzimos a função de perda contrastiva em modelos de geração de texto, apresentando a estrutura COntrastive-Streamlined MultimOdal (\ModelName), que particiona estrategicamente o modelo de linguagem em componentes dedicados ao processamento unimodal de texto e ao manuseio habilidoso de dados multimodais. \ModelName, nossa estrutura unificada, combina elementos unimodais e multimodais, aprimorando o desempenho do modelo em tarefas que envolvem dados textuais e visuais, enquanto reduz significativamente o número de parâmetros aprendíveis. No entanto, esses modelos exigem extensos conjuntos de dados de texto longo, e a disponibilidade de conjuntos de dados de vídeo-texto longo de alta qualidade ainda é limitada. Para preencher essa lacuna, este trabalho introduz \VideoDatasetName, um conjunto de dados inaugural de vídeo-texto intercalado com legendas abrangentes, representando um avanço significativo. Demonstrando seu impacto, ilustramos como \VideoDatasetName melhora o desempenho do modelo em tarefas de imagem-texto. Com 34% dos parâmetros aprendíveis e utilizando 72% dos dados disponíveis, nosso modelo demonstra uma superioridade significativa em relação ao OpenFlamingo~openflamingo. Por exemplo, na tarefa de legendagem de 4 exemplos do Flickr, o desempenho melhora notavelmente de 57,2% para 65%. As contribuições de \ModelName e \VideoDatasetName são destacadas por ganhos de desempenho notáveis em 14 conjuntos de dados diversos de tarefas subsequentes, abrangendo tanto tarefas de imagem-texto quanto de vídeo-texto.
English
In the evolution of Vision-Language Pre-training, shifting from short-text
comprehension to encompassing extended textual contexts is pivotal. Recent
autoregressive vision-language models like flamingo, palme, leveraging
the long-context capability of Large Language Models, have excelled in few-shot
text generation tasks but face challenges in alignment tasks. Addressing this
gap, we introduce the contrastive loss into text generation models, presenting
the COntrastive-Streamlined MultimOdal framework (\ModelName), strategically
partitioning the language model into dedicated unimodal text processing and
adept multimodal data handling components. \ModelName, our unified framework,
merges unimodal and multimodal elements, enhancing model performance for tasks
involving textual and visual data while notably reducing learnable parameters.
However, these models demand extensive long-text datasets, yet the availability
of high-quality long-text video datasets remains limited. To bridge this gap,
this work introduces \VideoDatasetName, an inaugural interleaved video-text
dataset featuring comprehensive captions, marking a significant step forward.
Demonstrating its impact, we illustrate how enhances model
performance in image-text tasks. With 34% learnable parameters and utilizing
72\% of the available data, our model demonstrates significant superiority over
OpenFlamingo~openflamingo. For instance, in the 4-shot flickr captioning
task, performance notably improves from 57.2% to 65.\%. The contributions of
and are underscored by notable performance
gains across 14 diverse downstream datasets encompassing both image-text and
video-text tasks.