Bases de référence améliorées pour le pré-entraînement vision-langage
Improved baselines for vision-language pre-training
May 15, 2023
Auteurs: Enrico Fini, Pietro Astolfi, Adriana Romero-Soriano, Jakob Verbeek, Michal Drozdzal
cs.AI
Résumé
L'apprentissage contrastif s'est imposé comme un cadre efficace pour l'apprentissage de représentations multimodales. CLIP, un travail fondateur dans ce domaine, a obtenu des résultats impressionnants en s'entraînant sur des données image-texte appariées en utilisant la fonction de perte contrastive. Des travaux récents affirment avoir amélioré CLIP en utilisant des pertes supplémentaires non contrastives inspirées de l'apprentissage auto-supervisé. Cependant, il est parfois difficile de dissocier la contribution de ces pertes supplémentaires d'autres détails d'implémentation, tels que les techniques d'augmentation de données ou de régularisation, utilisées pour entraîner le modèle. Pour éclaircir ce point, dans cet article, nous proposons, implémentons et évaluons d'abord plusieurs modèles de référence obtenus en combinant l'apprentissage contrastif avec des avancées récentes en apprentissage auto-supervisé. En particulier, nous utilisons les fonctions de perte qui se sont avérées efficaces pour l'apprentissage auto-supervisé visuel afin d'aligner les modalités image et texte. Nous constatons que ces modèles de référence surpassent une implémentation basique de CLIP. Cependant, lorsqu'une recette d'entraînement plus robuste est employée, cet avantage disparaît. En effet, nous observons qu'un simple modèle de référence CLIP peut également être considérablement amélioré, jusqu'à une amélioration relative de 25 % sur des tâches en zero-shot en aval, en utilisant des techniques d'entraînement bien connues et populaires dans d'autres sous-domaines. De plus, nous découvrons qu'il suffit d'appliquer des augmentations d'images et de textes pour compenser la majeure partie de l'amélioration obtenue par les travaux précédents. Avec notre recette d'entraînement améliorée pour CLIP, nous obtenons des performances de pointe sur quatre ensembles de données standard, et surpassons systématiquement les travaux antérieurs (jusqu'à +4 % sur le plus grand ensemble de données), tout en étant substantiellement plus simple.
English
Contrastive learning has emerged as an efficient framework to learn
multimodal representations. CLIP, a seminal work in this area, achieved
impressive results by training on paired image-text data using the contrastive
loss. Recent work claims improvements over CLIP using additional
non-contrastive losses inspired from self-supervised learning. However, it is
sometimes hard to disentangle the contribution of these additional losses from
other implementation details, e.g., data augmentation or regularization
techniques, used to train the model. To shed light on this matter, in this
paper, we first propose, implement and evaluate several baselines obtained by
combining contrastive learning with recent advances in self-supervised
learning. In particular, we use the loss functions that were proven successful
for visual self-supervised learning to align image and text modalities. We find
that these baselines outperform a basic implementation of CLIP. However, when a
stronger training recipe is employed, the advantage disappears. Indeed, we find
that a simple CLIP baseline can also be improved substantially, up to a 25%
relative improvement on downstream zero-shot tasks, by using well-known
training techniques that are popular in other subfields. Moreover, we discover
that it is enough to apply image and text augmentations to make up for most of
the improvement attained by prior works. With our improved training recipe for
CLIP, we obtain state-of-the-art performance on four standard datasets, and
consistently outperform prior work (up to +4% on the largest dataset), while
being substantially simpler.