¿Qué pasaría si recaptiáramos miles de millones de imágenes web con LLaMA-3?
What If We Recaption Billions of Web Images with LLaMA-3?
June 12, 2024
Autores: Xianhang Li, Haoqin Tu, Mude Hui, Zeyu Wang, Bingchen Zhao, Junfei Xiao, Sucheng Ren, Jieru Mei, Qing Liu, Huangjie Zheng, Yuyin Zhou, Cihang Xie
cs.AI
Resumen
Los pares imagen-texto obtenidos mediante rastreo web son inherentemente ruidosos. Estudios previos demuestran que alinear semánticamente y enriquecer las descripciones textuales de estos pares puede mejorar significativamente el entrenamiento de modelos en diversas tareas de visión y lenguaje, particularmente en la generación de imágenes a partir de texto. Sin embargo, las investigaciones a gran escala en esta área siguen siendo predominantemente de código cerrado. Nuestro artículo busca cerrar esta brecha en la comunidad, aprovechando el potente y de código abierto LLaMA-3, un modelo de lenguaje grande (LLM) de nivel GPT-4. Nuestro pipeline de recaptioning es sencillo: primero, ajustamos finamente un LLaVA-1.5 basado en LLaMA-3-8B y luego lo empleamos para recapturar 1.300 millones de imágenes del conjunto de datos DataComp-1B. Nuestros resultados empíricos confirman que este conjunto de datos mejorado, Recap-DataComp-1B, ofrece beneficios sustanciales en el entrenamiento de modelos avanzados de visión y lenguaje. Para modelos discriminativos como CLIP, observamos un mejor rendimiento en tareas de recuperación multimodal en escenarios de cero-shot. Para modelos generativos como los Transformers de Difusión para texto a imagen, las imágenes generadas muestran una mejora significativa en la alineación con las instrucciones textuales de los usuarios, especialmente al seguir consultas complejas. Nuestra página del proyecto es https://www.haqtu.me/Recap-Datacomp-1B/.
English
Web-crawled image-text pairs are inherently noisy. Prior studies demonstrate
that semantically aligning and enriching textual descriptions of these pairs
can significantly enhance model training across various vision-language tasks,
particularly text-to-image generation. However, large-scale investigations in
this area remain predominantly closed-source. Our paper aims to bridge this
community effort, leveraging the powerful and open-sourced LLaMA-3, a
GPT-4 level LLM. Our recaptioning pipeline is simple: first, we fine-tune a
LLaMA-3-8B powered LLaVA-1.5 and then employ it to recaption 1.3 billion images
from the DataComp-1B dataset. Our empirical results confirm that this enhanced
dataset, Recap-DataComp-1B, offers substantial benefits in training advanced
vision-language models. For discriminative models like CLIP, we observe
enhanced zero-shot performance in cross-modal retrieval tasks. For generative
models like text-to-image Diffusion Transformers, the generated images exhibit
a significant improvement in alignment with users' text instructions,
especially in following complex queries. Our project page is
https://www.haqtu.me/Recap-Datacomp-1B/Summary
AI-Generated Summary