Улучшенные базовые модели для предварительного обучения в области зрения и языка
Improved baselines for vision-language pre-training
May 15, 2023
Авторы: Enrico Fini, Pietro Astolfi, Adriana Romero-Soriano, Jakob Verbeek, Michal Drozdzal
cs.AI
Аннотация
Контрастное обучение стало эффективной основой для изучения мультимодальных представлений. CLIP, знаковая работа в этой области, достигла впечатляющих результатов, обучаясь на парных данных изображений и текстов с использованием контрастной функции потерь. Недавние исследования утверждают, что удалось улучшить CLIP за счет дополнительных неконтрастных функций потерь, вдохновленных методами самообучения. Однако иногда бывает сложно отделить вклад этих дополнительных функций потерь от других деталей реализации, таких как аугментация данных или методы регуляризации, используемые при обучении модели. Чтобы пролить свет на этот вопрос, в данной статье мы сначала предлагаем, реализуем и оцениваем несколько базовых моделей, полученных путем объединения контрастного обучения с последними достижениями в области самообучения. В частности, мы используем функции потерь, которые доказали свою эффективность в визуальном самообучении, для согласования изображений и текстов. Мы обнаруживаем, что эти базовые модели превосходят базовую реализацию CLIP. Однако при использовании более мощного подхода к обучению это преимущество исчезает. Действительно, мы выясняем, что простую базовую модель CLIP также можно значительно улучшить, вплоть до 25% относительного улучшения на задачах zero-shot, применяя известные методы обучения, популярные в других областях. Более того, мы обнаруживаем, что достаточно применить аугментацию изображений и текстов, чтобы достичь большей части улучшений, полученных в предыдущих работах. С нашим улучшенным подходом к обучению CLIP мы достигаем наилучших результатов на четырех стандартных наборах данных и стабильно превосходим предыдущие работы (до +4% на самом большом наборе данных), при этом оставаясь значительно более простыми.
English
Contrastive learning has emerged as an efficient framework to learn
multimodal representations. CLIP, a seminal work in this area, achieved
impressive results by training on paired image-text data using the contrastive
loss. Recent work claims improvements over CLIP using additional
non-contrastive losses inspired from self-supervised learning. However, it is
sometimes hard to disentangle the contribution of these additional losses from
other implementation details, e.g., data augmentation or regularization
techniques, used to train the model. To shed light on this matter, in this
paper, we first propose, implement and evaluate several baselines obtained by
combining contrastive learning with recent advances in self-supervised
learning. In particular, we use the loss functions that were proven successful
for visual self-supervised learning to align image and text modalities. We find
that these baselines outperform a basic implementation of CLIP. However, when a
stronger training recipe is employed, the advantage disappears. Indeed, we find
that a simple CLIP baseline can also be improved substantially, up to a 25%
relative improvement on downstream zero-shot tasks, by using well-known
training techniques that are popular in other subfields. Moreover, we discover
that it is enough to apply image and text augmentations to make up for most of
the improvement attained by prior works. With our improved training recipe for
CLIP, we obtain state-of-the-art performance on four standard datasets, and
consistently outperform prior work (up to +4% on the largest dataset), while
being substantially simpler.