COSMO: Modelo Multimodal Simplificado con Contraste y Preentrenamiento Intercalado
COSMO: COntrastive Streamlined MultimOdal Model with Interleaved Pre-Training
January 1, 2024
Autores: Alex Jinpeng Wang, Linjie Li, Kevin Qinghong Lin, Jianfeng Wang, Kevin Lin, Zhengyuan Yang, Lijuan Wang, Mike Zheng Shou
cs.AI
Resumen
En la evolución del preentrenamiento visión-lenguaje, el cambio desde la comprensión de textos cortos hacia la inclusión de contextos textuales extensos es fundamental. Modelos autoregresivos recientes de visión-lenguaje como Flamingo y PALME, que aprovechan la capacidad de contexto extenso de los Modelos de Lenguaje de Gran Escala (LLM), han destacado en tareas de generación de texto con pocos ejemplos, pero enfrentan desafíos en tareas de alineación. Para abordar esta brecha, introducimos la pérdida contrastiva en modelos de generación de texto, presentando el marco multimodal optimizado con contraste (\ModelName), que divide estratégicamente el modelo de lenguaje en componentes dedicados al procesamiento unimodal de texto y al manejo hábil de datos multimodales. \ModelName, nuestro marco unificado, combina elementos unimodales y multimodales, mejorando el rendimiento del modelo en tareas que involucran datos textuales y visuales, mientras reduce notablemente los parámetros entrenables. Sin embargo, estos modelos requieren extensos conjuntos de datos de texto largo, y la disponibilidad de conjuntos de datos de video con texto largo de alta calidad sigue siendo limitada. Para cerrar esta brecha, este trabajo introduce \VideoDatasetName, un conjunto de datos pionero de video-texto intercalado con descripciones completas, marcando un avance significativo. Demostrando su impacto, ilustramos cómo \ModelName mejora el rendimiento del modelo en tareas de imagen-texto. Con un 34% de parámetros entrenables y utilizando el 72% de los datos disponibles, nuestro modelo muestra una superioridad significativa sobre OpenFlamingo~openflamingo. Por ejemplo, en la tarea de subtitulado de Flickr con 4 ejemplos, el rendimiento mejora notablemente del 57.2% al 65.\%. Las contribuciones de \ModelName y \VideoDatasetName se destacan por mejoras notables en el rendimiento a través de 14 conjuntos de datos diversos que abarcan tareas de imagen-texto y video-texto.
English
In the evolution of Vision-Language Pre-training, shifting from short-text
comprehension to encompassing extended textual contexts is pivotal. Recent
autoregressive vision-language models like flamingo, palme, leveraging
the long-context capability of Large Language Models, have excelled in few-shot
text generation tasks but face challenges in alignment tasks. Addressing this
gap, we introduce the contrastive loss into text generation models, presenting
the COntrastive-Streamlined MultimOdal framework (\ModelName), strategically
partitioning the language model into dedicated unimodal text processing and
adept multimodal data handling components. \ModelName, our unified framework,
merges unimodal and multimodal elements, enhancing model performance for tasks
involving textual and visual data while notably reducing learnable parameters.
However, these models demand extensive long-text datasets, yet the availability
of high-quality long-text video datasets remains limited. To bridge this gap,
this work introduces \VideoDatasetName, an inaugural interleaved video-text
dataset featuring comprehensive captions, marking a significant step forward.
Demonstrating its impact, we illustrate how enhances model
performance in image-text tasks. With 34% learnable parameters and utilizing
72\% of the available data, our model demonstrates significant superiority over
OpenFlamingo~openflamingo. For instance, in the 4-shot flickr captioning
task, performance notably improves from 57.2% to 65.\%. The contributions of
and are underscored by notable performance
gains across 14 diverse downstream datasets encompassing both image-text and
video-text tasks.