ChatPaper.aiChatPaper

Mejores líneas base para el preentrenamiento de visión y lenguaje

Improved baselines for vision-language pre-training

May 15, 2023
Autores: Enrico Fini, Pietro Astolfi, Adriana Romero-Soriano, Jakob Verbeek, Michal Drozdzal
cs.AI

Resumen

El aprendizaje contrastivo ha surgido como un marco eficiente para aprender representaciones multimodales. CLIP, un trabajo seminal en esta área, logró resultados impresionantes al entrenarse con datos de imágenes y texto emparejados utilizando la pérdida contrastiva. Trabajos recientes afirman mejoras sobre CLIP al emplear pérdidas adicionales no contrastivas inspiradas en el aprendizaje autosupervisado. Sin embargo, a veces es difícil desentrañar la contribución de estas pérdidas adicionales de otros detalles de implementación, como técnicas de aumento de datos o regularización, utilizados para entrenar el modelo. Para arrojar luz sobre este tema, en este artículo primero proponemos, implementamos y evaluamos varias líneas base obtenidas al combinar el aprendizaje contrastivo con avances recientes en aprendizaje autosupervisado. En particular, utilizamos funciones de pérdida que han demostrado ser exitosas en el aprendizaje autosupervisado visual para alinear las modalidades de imagen y texto. Descubrimos que estas líneas base superan una implementación básica de CLIP. Sin embargo, cuando se emplea una receta de entrenamiento más robusta, la ventaja desaparece. De hecho, encontramos que una línea base simple de CLIP también puede mejorarse sustancialmente, hasta un 25% de mejora relativa en tareas de zero-shot, utilizando técnicas de entrenamiento bien conocidas y populares en otros subcampos. Además, descubrimos que basta con aplicar aumentos de imagen y texto para compensar la mayor parte de la mejora alcanzada por trabajos previos. Con nuestra receta de entrenamiento mejorada para CLIP, obtenemos un rendimiento de vanguardia en cuatro conjuntos de datos estándar, y superamos consistentemente trabajos anteriores (hasta un +4% en el conjunto de datos más grande), siendo sustancialmente más simple.
English
Contrastive learning has emerged as an efficient framework to learn multimodal representations. CLIP, a seminal work in this area, achieved impressive results by training on paired image-text data using the contrastive loss. Recent work claims improvements over CLIP using additional non-contrastive losses inspired from self-supervised learning. However, it is sometimes hard to disentangle the contribution of these additional losses from other implementation details, e.g., data augmentation or regularization techniques, used to train the model. To shed light on this matter, in this paper, we first propose, implement and evaluate several baselines obtained by combining contrastive learning with recent advances in self-supervised learning. In particular, we use the loss functions that were proven successful for visual self-supervised learning to align image and text modalities. We find that these baselines outperform a basic implementation of CLIP. However, when a stronger training recipe is employed, the advantage disappears. Indeed, we find that a simple CLIP baseline can also be improved substantially, up to a 25% relative improvement on downstream zero-shot tasks, by using well-known training techniques that are popular in other subfields. Moreover, we discover that it is enough to apply image and text augmentations to make up for most of the improvement attained by prior works. With our improved training recipe for CLIP, we obtain state-of-the-art performance on four standard datasets, and consistently outperform prior work (up to +4% on the largest dataset), while being substantially simpler.
PDF20December 15, 2024