Verbeterde basislijnen voor visueel-taalkundige voorafgaande training

Samenvatting

Contrastief leren is naar voren gekomen als een efficiënt raamwerk om multimodale representaties te leren. CLIP, een baanbrekend werk op dit gebied, behaalde indrukwekkende resultaten door te trainen op gepaarde beeld-tekstgegevens met behulp van het contrastieve verlies. Recent werk claimt verbeteringen ten opzichte van CLIP door gebruik te maken van aanvullende niet-contrastieve verliezen geïnspireerd op zelfgesuperviseerd leren. Het is echter soms moeilijk om de bijdrage van deze aanvullende verliezen te onderscheiden van andere implementatiedetails, zoals data-augmentatie of regularisatietechnieken, die worden gebruikt om het model te trainen. Om hier meer duidelijkheid over te scheppen, stellen we in dit artikel eerst verschillende baseline-modellen voor, implementeren en evalueren we deze, verkregen door contrastief leren te combineren met recente ontwikkelingen in zelfgesuperviseerd leren. In het bijzonder gebruiken we de verliesfuncties die succesvol zijn gebleken voor visueel zelfgesuperviseerd leren om beeld- en tekstmodaliteiten uit te lijnen. We ontdekken dat deze baseline-modellen een eenvoudige implementatie van CLIP overtreffen. Wanneer echter een sterker trainingsrecept wordt gebruikt, verdwijnt dit voordeel. Inderdaad, we ontdekken dat een eenvoudig CLIP-baselinemodel ook aanzienlijk kan worden verbeterd, tot een relatieve verbetering van 25% op downstream zero-shot taken, door gebruik te maken van bekende trainingsmethoden die populair zijn in andere subvelden. Bovendien ontdekken we dat het voldoende is om beeld- en tekstaugmentaties toe te passen om het grootste deel van de verbetering te bereiken die door eerdere werken is behaald. Met ons verbeterde trainingsrecept voor CLIP behalen we state-of-the-art prestaties op vier standaarddatasets, en overtreffen we consistent eerdere werken (tot +4% op de grootste dataset), terwijl het aanzienlijk eenvoudiger blijft.

English

Contrastive learning has emerged as an efficient framework to learn multimodal representations. CLIP, a seminal work in this area, achieved impressive results by training on paired image-text data using the contrastive loss. Recent work claims improvements over CLIP using additional non-contrastive losses inspired from self-supervised learning. However, it is sometimes hard to disentangle the contribution of these additional losses from other implementation details, e.g., data augmentation or regularization techniques, used to train the model. To shed light on this matter, in this paper, we first propose, implement and evaluate several baselines obtained by combining contrastive learning with recent advances in self-supervised learning. In particular, we use the loss functions that were proven successful for visual self-supervised learning to align image and text modalities. We find that these baselines outperform a basic implementation of CLIP. However, when a stronger training recipe is employed, the advantage disappears. Indeed, we find that a simple CLIP baseline can also be improved substantially, up to a 25% relative improvement on downstream zero-shot tasks, by using well-known training techniques that are popular in other subfields. Moreover, we discover that it is enough to apply image and text augmentations to make up for most of the improvement attained by prior works. With our improved training recipe for CLIP, we obtain state-of-the-art performance on four standard datasets, and consistently outperform prior work (up to +4% on the largest dataset), while being substantially simpler.

Verbeterde basislijnen voor visueel-taalkundige voorafgaande training

Improved baselines for vision-language pre-training

Samenvatting

Support