Baseline migliorate per il pre-addestramento visione-linguaggio
Improved baselines for vision-language pre-training
May 15, 2023
Autori: Enrico Fini, Pietro Astolfi, Adriana Romero-Soriano, Jakob Verbeek, Michal Drozdzal
cs.AI
Abstract
L'apprendimento contrastivo è emerso come un framework efficiente per apprendere rappresentazioni multimodali. CLIP, un lavoro seminale in questo ambito, ha ottenuto risultati impressionanti addestrandosi su dati accoppiati immagine-testo utilizzando la funzione di perdita contrastiva. Recenti lavori affermano di aver migliorato CLIP utilizzando ulteriori perdite non contrastive ispirate all'apprendimento auto-supervisionato. Tuttavia, a volte è difficile distinguere il contributo di queste perdite aggiuntive da altri dettagli implementativi, come le tecniche di aumento dei dati o di regolarizzazione, utilizzati per addestrare il modello. Per fare luce su questo aspetto, in questo articolo proponiamo, implementiamo e valutiamo diverse baseline ottenute combinando l'apprendimento contrastivo con i recenti progressi nell'apprendimento auto-supervisionato. In particolare, utilizziamo le funzioni di perdita che si sono dimostrate efficaci per l'apprendimento auto-supervisionato visivo per allineare le modalità immagine e testo. Troviamo che queste baseline superano un'implementazione di base di CLIP. Tuttavia, quando viene utilizzata una ricetta di addestramento più robusta, il vantaggio scompare. Infatti, scopriamo che anche una semplice baseline CLIP può essere migliorata sostanzialmente, fino a un miglioramento relativo del 25% su task zero-shot downstream, utilizzando tecniche di addestramento ben note e popolari in altri sottocampi. Inoltre, scopriamo che è sufficiente applicare aumenti di dati su immagini e testo per ottenere la maggior parte del miglioramento raggiunto dai lavori precedenti. Con la nostra ricetta di addestramento migliorata per CLIP, otteniamo prestazioni all'avanguardia su quattro dataset standard e superiamo costantemente i lavori precedenti (fino a +4% sul dataset più grande), pur essendo sostanzialmente più semplice.
English
Contrastive learning has emerged as an efficient framework to learn
multimodal representations. CLIP, a seminal work in this area, achieved
impressive results by training on paired image-text data using the contrastive
loss. Recent work claims improvements over CLIP using additional
non-contrastive losses inspired from self-supervised learning. However, it is
sometimes hard to disentangle the contribution of these additional losses from
other implementation details, e.g., data augmentation or regularization
techniques, used to train the model. To shed light on this matter, in this
paper, we first propose, implement and evaluate several baselines obtained by
combining contrastive learning with recent advances in self-supervised
learning. In particular, we use the loss functions that were proven successful
for visual self-supervised learning to align image and text modalities. We find
that these baselines outperform a basic implementation of CLIP. However, when a
stronger training recipe is employed, the advantage disappears. Indeed, we find
that a simple CLIP baseline can also be improved substantially, up to a 25%
relative improvement on downstream zero-shot tasks, by using well-known
training techniques that are popular in other subfields. Moreover, we discover
that it is enough to apply image and text augmentations to make up for most of
the improvement attained by prior works. With our improved training recipe for
CLIP, we obtain state-of-the-art performance on four standard datasets, and
consistently outperform prior work (up to +4% on the largest dataset), while
being substantially simpler.