Linhas de base aprimoradas para pré-treinamento de visão e linguagem
Improved baselines for vision-language pre-training
May 15, 2023
Autores: Enrico Fini, Pietro Astolfi, Adriana Romero-Soriano, Jakob Verbeek, Michal Drozdzal
cs.AI
Resumo
O aprendizado contrastivo emergiu como uma estrutura eficiente para aprender representações multimodais. O CLIP, um trabalho seminal nessa área, alcançou resultados impressionantes ao treinar com dados pareados de imagem-texto usando a função de perda contrastiva. Trabalhos recentes afirmam melhorias em relação ao CLIP utilizando perdas adicionais não contrastivas inspiradas no aprendizado auto-supervisionado. No entanto, às vezes é difícil separar a contribuição dessas perdas adicionais de outros detalhes de implementação, como técnicas de aumento de dados ou regularização, usados para treinar o modelo. Para esclarecer essa questão, neste artigo, primeiro propomos, implementamos e avaliamos várias linhas de base obtidas pela combinação do aprendizado contrastivo com avanços recentes no aprendizado auto-supervisionado. Em particular, usamos as funções de perda que se mostraram bem-sucedidas no aprendizado auto-supervisionado visual para alinhar as modalidades de imagem e texto. Descobrimos que essas linhas de base superam uma implementação básica do CLIP. No entanto, quando uma receita de treinamento mais robusta é empregada, a vantagem desaparece. De fato, descobrimos que uma linha de base simples do CLIP também pode ser substancialmente melhorada, com uma melhoria relativa de até 25% em tarefas de zero-shot, utilizando técnicas de treinamento bem conhecidas que são populares em outros subcampos. Além disso, descobrimos que basta aplicar aumentos de imagem e texto para compensar a maior parte da melhoria obtida por trabalhos anteriores. Com nossa receita de treinamento aprimorada para o CLIP, obtemos desempenho de ponta em quatro conjuntos de dados padrão e superamos consistentemente trabalhos anteriores (até +4% no maior conjunto de dados), sendo substancialmente mais simples.
English
Contrastive learning has emerged as an efficient framework to learn
multimodal representations. CLIP, a seminal work in this area, achieved
impressive results by training on paired image-text data using the contrastive
loss. Recent work claims improvements over CLIP using additional
non-contrastive losses inspired from self-supervised learning. However, it is
sometimes hard to disentangle the contribution of these additional losses from
other implementation details, e.g., data augmentation or regularization
techniques, used to train the model. To shed light on this matter, in this
paper, we first propose, implement and evaluate several baselines obtained by
combining contrastive learning with recent advances in self-supervised
learning. In particular, we use the loss functions that were proven successful
for visual self-supervised learning to align image and text modalities. We find
that these baselines outperform a basic implementation of CLIP. However, when a
stronger training recipe is employed, the advantage disappears. Indeed, we find
that a simple CLIP baseline can also be improved substantially, up to a 25%
relative improvement on downstream zero-shot tasks, by using well-known
training techniques that are popular in other subfields. Moreover, we discover
that it is enough to apply image and text augmentations to make up for most of
the improvement attained by prior works. With our improved training recipe for
CLIP, we obtain state-of-the-art performance on four standard datasets, and
consistently outperform prior work (up to +4% on the largest dataset), while
being substantially simpler.