COSMO: Контрастная оптимизированная мультимодальная модель с чередующейся предварительной подготовкой
COSMO: COntrastive Streamlined MultimOdal Model with Interleaved Pre-Training
January 1, 2024
Авторы: Alex Jinpeng Wang, Linjie Li, Kevin Qinghong Lin, Jianfeng Wang, Kevin Lin, Zhengyuan Yang, Lijuan Wang, Mike Zheng Shou
cs.AI
Аннотация
В эволюции предобучения моделей для обработки зрения и языка переход от понимания коротких текстов к охвату расширенных текстовых контекстов является ключевым. Недавние авторегрессивные модели, такие как Flamingo и PALME, использующие способность больших языковых моделей работать с длинными контекстами, преуспели в задачах генерации текста с малым количеством примеров, но сталкиваются с трудностями в задачах согласования. Для устранения этого пробела мы вводим контрастную функцию потерь в модели генерации текста, представляя фреймворк COntrastive-Streamlined MultimOdal (\ModelName), который стратегически разделяет языковую модель на компоненты, специализирующиеся на обработке унимодальных текстов и умело работающие с мультимодальными данными. \ModelName, наш унифицированный фреймворк, объединяет унимодальные и мультимодальные элементы, повышая производительность модели в задачах, связанных с текстовыми и визуальными данными, при этом значительно сокращая количество обучаемых параметров. Однако такие модели требуют обширных наборов данных с длинными текстами, в то время как доступность высококачественных наборов данных с длинными текстами для видео остается ограниченной. Для устранения этого пробела данная работа представляет \VideoDatasetName, первый набор данных с чередующимися видео и текстами, содержащий подробные описания, что является значительным шагом вперед. Продемонстрировав его влияние, мы показываем, как \VideoDatasetName улучшает производительность модели в задачах обработки изображений и текстов. С 34% обучаемых параметров и использованием 72% доступных данных наша модель демонстрирует значительное превосходство над OpenFlamingo~openflamingo. Например, в задаче генерации подписей к изображениям Flickr с 4 примерами производительность заметно улучшается с 57,2% до 65%. Вклад \ModelName и \VideoDatasetName подчеркивается значительным улучшением производительности на 14 различных наборах данных, охватывающих как задачи обработки изображений и текстов, так и видео и текстов.
English
In the evolution of Vision-Language Pre-training, shifting from short-text
comprehension to encompassing extended textual contexts is pivotal. Recent
autoregressive vision-language models like flamingo, palme, leveraging
the long-context capability of Large Language Models, have excelled in few-shot
text generation tasks but face challenges in alignment tasks. Addressing this
gap, we introduce the contrastive loss into text generation models, presenting
the COntrastive-Streamlined MultimOdal framework (\ModelName), strategically
partitioning the language model into dedicated unimodal text processing and
adept multimodal data handling components. \ModelName, our unified framework,
merges unimodal and multimodal elements, enhancing model performance for tasks
involving textual and visual data while notably reducing learnable parameters.
However, these models demand extensive long-text datasets, yet the availability
of high-quality long-text video datasets remains limited. To bridge this gap,
this work introduces \VideoDatasetName, an inaugural interleaved video-text
dataset featuring comprehensive captions, marking a significant step forward.
Demonstrating its impact, we illustrate how enhances model
performance in image-text tasks. With 34% learnable parameters and utilizing
72\% of the available data, our model demonstrates significant superiority over
OpenFlamingo~openflamingo. For instance, in the 4-shot flickr captioning
task, performance notably improves from 57.2% to 65.\%. The contributions of
and are underscored by notable performance
gains across 14 diverse downstream datasets encompassing both image-text and
video-text tasks.