Los Generadores de Subtítulos de Imágenes También Son Aprendices Escalables de Visión
Image Captioners Are Scalable Vision Learners Too
June 13, 2023
Autores: Michael Tschannen, Manoj Kumar, Andreas Steiner, Xiaohua Zhai, Neil Houlsby, Lucas Beyer
cs.AI
Resumen
El preentrenamiento contrastivo en pares de imagen-texto de la web es una de las estrategias de preentrenamiento a gran escala más populares para backbones de visión, especialmente en el contexto de modelos multimodales grandes. Al mismo tiempo, la generación de descripciones de imágenes (image captioning) con este tipo de datos se considera comúnmente una estrategia de preentrenamiento inferior. En este artículo, realizamos una comparación justa de estas dos estrategias de preentrenamiento, igualando cuidadosamente los datos de entrenamiento, el cómputo y la capacidad del modelo. Utilizando un transformador estándar de codificador-decodificador, encontramos que la generación de descripciones por sí sola es sorprendentemente efectiva: en tareas de clasificación, esta estrategia produce codificadores de visión competitivos con los preentrenados de manera contrastiva, superándolos en tareas de visión y lenguaje. Además, analizamos el efecto de la arquitectura y la escala del modelo, así como de los datos de preentrenamiento en la calidad de las representaciones, y encontramos que la generación de descripciones exhibe el mismo o mejor comportamiento de escalabilidad en estos ejes. En general, nuestros resultados muestran que la simple generación de descripciones de imágenes es una estrategia de preentrenamiento más poderosa de lo que se creía anteriormente.
English
Contrastive pretraining on image-text pairs from the web is one of the most
popular large-scale pretraining strategies for vision backbones, especially in
the context of large multimodal models. At the same time, image captioning on
this type of data is commonly considered an inferior pretraining strategy. In
this paper, we perform a fair comparison of these two pretraining strategies,
carefully matching training data, compute, and model capacity. Using a standard
encoder-decoder transformer, we find that captioning alone is surprisingly
effective: on classification tasks, captioning produces vision encoders
competitive with contrastively pretrained encoders, while surpassing them on
vision & language tasks. We further analyze the effect of the model
architecture and scale, as well as the pretraining data on the representation
quality, and find that captioning exhibits the same or better scaling behavior
along these axes. Overall our results show that plain image captioning is a
more powerful pretraining strategy than was previously believed.