Verbesserte Baselines für Vision-Sprache-Vortraining
Improved baselines for vision-language pre-training
May 15, 2023
Autoren: Enrico Fini, Pietro Astolfi, Adriana Romero-Soriano, Jakob Verbeek, Michal Drozdzal
cs.AI
Zusammenfassung
Kontrastives Lernen hat sich als effizientes Framework zur Erstellung multimodaler Repräsentationen etabliert. CLIP, eine wegweisende Arbeit in diesem Bereich, erzielte beeindruckende Ergebnisse durch das Training auf gepaarten Bild-Text-Daten unter Verwendung des kontrastiven Verlusts. Aktuelle Arbeiten behaupten Verbesserungen gegenüber CLIP durch die Verwendung zusätzlicher nicht-kontrastiver Verlustfunktionen, die vom selbstüberwachten Lernen inspiriert sind. Es ist jedoch manchmal schwierig, den Beitrag dieser zusätzlichen Verlustfunktionen von anderen Implementierungsdetails, wie z. B. Datenaugmentierung oder Regularisierungstechniken, die zum Training des Modells verwendet werden, zu trennen. Um Licht in diese Angelegenheit zu bringen, schlagen, implementieren und evaluieren wir in dieser Arbeit zunächst mehrere Baseline-Modelle, die durch die Kombination von kontrastivem Lernen mit aktuellen Fortschritten im selbstüberwachten Lernen entstehen. Insbesondere verwenden wir die Verlustfunktionen, die sich beim visuellen selbstüberwachten Lernen als erfolgreich erwiesen haben, um Bild- und Textmodalitäten auszurichten. Wir stellen fest, dass diese Baseline-Modelle eine einfache Implementierung von CLIP übertreffen. Wenn jedoch ein stärkeres Trainingsrezept verwendet wird, verschwindet dieser Vorteil. Tatsächlich stellen wir fest, dass eine einfache CLIP-Baseline ebenfalls erheblich verbessert werden kann, mit einer relativen Verbesserung von bis zu 25 % bei nachgelagerten Zero-Shot-Aufgaben, durch die Verwendung bekannter Trainingsmethoden, die in anderen Teilbereichen populär sind. Darüber hinaus entdecken wir, dass es ausreicht, Bild- und Textaugmentierungen anzuwenden, um den größten Teil der Verbesserungen zu erzielen, die in früheren Arbeiten erreicht wurden. Mit unserem verbesserten Trainingsrezept für CLIP erzielen wir state-of-the-art Leistungen auf vier Standarddatensätzen und übertreffen konsistent frühere Arbeiten (bis zu +4 % auf dem größten Datensatz), während wir deutlich einfacher sind.
English
Contrastive learning has emerged as an efficient framework to learn
multimodal representations. CLIP, a seminal work in this area, achieved
impressive results by training on paired image-text data using the contrastive
loss. Recent work claims improvements over CLIP using additional
non-contrastive losses inspired from self-supervised learning. However, it is
sometimes hard to disentangle the contribution of these additional losses from
other implementation details, e.g., data augmentation or regularization
techniques, used to train the model. To shed light on this matter, in this
paper, we first propose, implement and evaluate several baselines obtained by
combining contrastive learning with recent advances in self-supervised
learning. In particular, we use the loss functions that were proven successful
for visual self-supervised learning to align image and text modalities. We find
that these baselines outperform a basic implementation of CLIP. However, when a
stronger training recipe is employed, the advantage disappears. Indeed, we find
that a simple CLIP baseline can also be improved substantially, up to a 25%
relative improvement on downstream zero-shot tasks, by using well-known
training techniques that are popular in other subfields. Moreover, we discover
that it is enough to apply image and text augmentations to make up for most of
the improvement attained by prior works. With our improved training recipe for
CLIP, we obtain state-of-the-art performance on four standard datasets, and
consistently outperform prior work (up to +4% on the largest dataset), while
being substantially simpler.