Verbeterde basislijnen voor visueel-taalkundige voorafgaande training
Improved baselines for vision-language pre-training
May 15, 2023
Auteurs: Enrico Fini, Pietro Astolfi, Adriana Romero-Soriano, Jakob Verbeek, Michal Drozdzal
cs.AI
Samenvatting
Contrastief leren is naar voren gekomen als een efficiënt raamwerk om multimodale representaties te leren. CLIP, een baanbrekend werk op dit gebied, behaalde indrukwekkende resultaten door te trainen op gepaarde beeld-tekstgegevens met behulp van het contrastieve verlies. Recent werk claimt verbeteringen ten opzichte van CLIP door gebruik te maken van aanvullende niet-contrastieve verliezen geïnspireerd op zelfgesuperviseerd leren. Het is echter soms moeilijk om de bijdrage van deze aanvullende verliezen te onderscheiden van andere implementatiedetails, zoals data-augmentatie of regularisatietechnieken, die worden gebruikt om het model te trainen. Om hier meer duidelijkheid over te scheppen, stellen we in dit artikel eerst verschillende baseline-modellen voor, implementeren en evalueren we deze, verkregen door contrastief leren te combineren met recente ontwikkelingen in zelfgesuperviseerd leren. In het bijzonder gebruiken we de verliesfuncties die succesvol zijn gebleken voor visueel zelfgesuperviseerd leren om beeld- en tekstmodaliteiten uit te lijnen. We ontdekken dat deze baseline-modellen een eenvoudige implementatie van CLIP overtreffen. Wanneer echter een sterker trainingsrecept wordt gebruikt, verdwijnt dit voordeel. Inderdaad, we ontdekken dat een eenvoudig CLIP-baselinemodel ook aanzienlijk kan worden verbeterd, tot een relatieve verbetering van 25% op downstream zero-shot taken, door gebruik te maken van bekende trainingsmethoden die populair zijn in andere subvelden. Bovendien ontdekken we dat het voldoende is om beeld- en tekstaugmentaties toe te passen om het grootste deel van de verbetering te bereiken die door eerdere werken is behaald. Met ons verbeterde trainingsrecept voor CLIP behalen we state-of-the-art prestaties op vier standaarddatasets, en overtreffen we consistent eerdere werken (tot +4% op de grootste dataset), terwijl het aanzienlijk eenvoudiger blijft.
English
Contrastive learning has emerged as an efficient framework to learn
multimodal representations. CLIP, a seminal work in this area, achieved
impressive results by training on paired image-text data using the contrastive
loss. Recent work claims improvements over CLIP using additional
non-contrastive losses inspired from self-supervised learning. However, it is
sometimes hard to disentangle the contribution of these additional losses from
other implementation details, e.g., data augmentation or regularization
techniques, used to train the model. To shed light on this matter, in this
paper, we first propose, implement and evaluate several baselines obtained by
combining contrastive learning with recent advances in self-supervised
learning. In particular, we use the loss functions that were proven successful
for visual self-supervised learning to align image and text modalities. We find
that these baselines outperform a basic implementation of CLIP. However, when a
stronger training recipe is employed, the advantage disappears. Indeed, we find
that a simple CLIP baseline can also be improved substantially, up to a 25%
relative improvement on downstream zero-shot tasks, by using well-known
training techniques that are popular in other subfields. Moreover, we discover
that it is enough to apply image and text augmentations to make up for most of
the improvement attained by prior works. With our improved training recipe for
CLIP, we obtain state-of-the-art performance on four standard datasets, and
consistently outperform prior work (up to +4% on the largest dataset), while
being substantially simpler.