COSMO: Контрастная оптимизированная мультимодальная модель с чередующейся предварительной подготовкой

Аннотация

В эволюции предобучения моделей для обработки зрения и языка переход от понимания коротких текстов к охвату расширенных текстовых контекстов является ключевым. Недавние авторегрессивные модели, такие как Flamingo и PALME, использующие способность больших языковых моделей работать с длинными контекстами, преуспели в задачах генерации текста с малым количеством примеров, но сталкиваются с трудностями в задачах согласования. Для устранения этого пробела мы вводим контрастную функцию потерь в модели генерации текста, представляя фреймворк COntrastive-Streamlined MultimOdal (\ModelName), который стратегически разделяет языковую модель на компоненты, специализирующиеся на обработке унимодальных текстов и умело работающие с мультимодальными данными. \ModelName, наш унифицированный фреймворк, объединяет унимодальные и мультимодальные элементы, повышая производительность модели в задачах, связанных с текстовыми и визуальными данными, при этом значительно сокращая количество обучаемых параметров. Однако такие модели требуют обширных наборов данных с длинными текстами, в то время как доступность высококачественных наборов данных с длинными текстами для видео остается ограниченной. Для устранения этого пробела данная работа представляет \VideoDatasetName, первый набор данных с чередующимися видео и текстами, содержащий подробные описания, что является значительным шагом вперед. Продемонстрировав его влияние, мы показываем, как \VideoDatasetName улучшает производительность модели в задачах обработки изображений и текстов. С 34% обучаемых параметров и использованием 72% доступных данных наша модель демонстрирует значительное превосходство над OpenFlamingo~openflamingo. Например, в задаче генерации подписей к изображениям Flickr с 4 примерами производительность заметно улучшается с 57,2% до 65%. Вклад \ModelName и \VideoDatasetName подчеркивается значительным улучшением производительности на 14 различных наборах данных, охватывающих как задачи обработки изображений и текстов, так и видео и текстов.

English

In the evolution of Vision-Language Pre-training, shifting from short-text comprehension to encompassing extended textual contexts is pivotal. Recent autoregressive vision-language models like flamingo, palme, leveraging the long-context capability of Large Language Models, have excelled in few-shot text generation tasks but face challenges in alignment tasks. Addressing this gap, we introduce the contrastive loss into text generation models, presenting the COntrastive-Streamlined MultimOdal framework (\ModelName), strategically partitioning the language model into dedicated unimodal text processing and adept multimodal data handling components. \ModelName, our unified framework, merges unimodal and multimodal elements, enhancing model performance for tasks involving textual and visual data while notably reducing learnable parameters. However, these models demand extensive long-text datasets, yet the availability of high-quality long-text video datasets remains limited. To bridge this gap, this work introduces \VideoDatasetName, an inaugural interleaved video-text dataset featuring comprehensive captions, marking a significant step forward. Demonstrating its impact, we illustrate how enhances model performance in image-text tasks. With 34% learnable parameters and utilizing 72\% of the available data, our model demonstrates significant superiority over OpenFlamingo~openflamingo. For instance, in the 4-shot flickr captioning task, performance notably improves from 57.2% to 65.\%. The contributions of and are underscored by notable performance gains across 14 diverse downstream datasets encompassing both image-text and video-text tasks.

COSMO: Контрастная оптимизированная мультимодальная модель с чередующейся предварительной подготовкой

COSMO: COntrastive Streamlined MultimOdal Model with Interleaved Pre-Training

Аннотация

Support