ChatPaper.aiChatPaper

E Se Recaptionssemos Bilhões de Imagens da Web com o LLaMA-3?

What If We Recaption Billions of Web Images with LLaMA-3?

June 12, 2024
Autores: Xianhang Li, Haoqin Tu, Mude Hui, Zeyu Wang, Bingchen Zhao, Junfei Xiao, Sucheng Ren, Jieru Mei, Qing Liu, Huangjie Zheng, Yuyin Zhou, Cihang Xie
cs.AI

Resumo

Pares imagem-texto obtidos por web crawling são inerentemente ruidosos. Estudos anteriores demonstram que alinhar semanticamente e enriquecer as descrições textuais desses pares pode melhorar significativamente o treinamento de modelos em diversas tarefas de visão e linguagem, particularmente na geração de imagens a partir de texto. No entanto, investigações em larga escala nessa área permanecem predominantemente de código fechado. Nosso artigo visa preencher essa lacuna de esforço comunitário, aproveitando o poderoso e de código aberto LLaMA-3, um LLM de nível GPT-4. Nosso pipeline de recaptioning é simples: primeiro, ajustamos finamente um LLaVA-1.5 baseado em LLaMA-3-8B e, em seguida, o empregamos para recaptar 1,3 bilhão de imagens do conjunto de dados DataComp-1B. Nossos resultados empíricos confirmam que esse conjunto de dados aprimorado, Recap-DataComp-1B, oferece benefícios substanciais no treinamento de modelos avançados de visão e linguagem. Para modelos discriminativos como o CLIP, observamos um desempenho zero-shot aprimorado em tarefas de recuperação cross-modal. Para modelos generativos como os Transformers de Difusão texto-imagem, as imagens geradas exibem uma melhoria significativa no alinhamento com as instruções textuais dos usuários, especialmente ao seguir consultas complexas. Nossa página do projeto está disponível em https://www.haqtu.me/Recap-Datacomp-1B/.
English
Web-crawled image-text pairs are inherently noisy. Prior studies demonstrate that semantically aligning and enriching textual descriptions of these pairs can significantly enhance model training across various vision-language tasks, particularly text-to-image generation. However, large-scale investigations in this area remain predominantly closed-source. Our paper aims to bridge this community effort, leveraging the powerful and open-sourced LLaMA-3, a GPT-4 level LLM. Our recaptioning pipeline is simple: first, we fine-tune a LLaMA-3-8B powered LLaVA-1.5 and then employ it to recaption 1.3 billion images from the DataComp-1B dataset. Our empirical results confirm that this enhanced dataset, Recap-DataComp-1B, offers substantial benefits in training advanced vision-language models. For discriminative models like CLIP, we observe enhanced zero-shot performance in cross-modal retrieval tasks. For generative models like text-to-image Diffusion Transformers, the generated images exhibit a significant improvement in alignment with users' text instructions, especially in following complex queries. Our project page is https://www.haqtu.me/Recap-Datacomp-1B/
PDF411December 8, 2024