Cosa Accadrebbe Se Ricaptionassimo Miliardi di Immagini Web con LLaMA-3?
What If We Recaption Billions of Web Images with LLaMA-3?
June 12, 2024
Autori: Xianhang Li, Haoqin Tu, Mude Hui, Zeyu Wang, Bingchen Zhao, Junfei Xiao, Sucheng Ren, Jieru Mei, Qing Liu, Huangjie Zheng, Yuyin Zhou, Cihang Xie
cs.AI
Abstract
Le coppie immagine-testo raccolte tramite web crawling sono intrinsecamente rumorose. Studi precedenti dimostrano che l'allineamento semantico e l'arricchimento delle descrizioni testuali di queste coppie possono migliorare significativamente l'addestramento dei modelli in vari compiti di visione e linguaggio, in particolare nella generazione di immagini da testo. Tuttavia, le indagini su larga scala in questo ambito rimangono prevalentemente chiuse al pubblico. Il nostro articolo mira a colmare questo sforzo comunitario, sfruttando il potente e open-source LLaMA-3, un LLM di livello GPT-4. La nostra pipeline di ricaptione è semplice: prima, ottimizziamo un LLaVA-1.5 alimentato da LLaMA-3-8B e poi lo utilizziamo per ricaptionare 1,3 miliardi di immagini del dataset DataComp-1B. I nostri risultati empirici confermano che questo dataset migliorato, Recap-DataComp-1B, offre sostanziali vantaggi nell'addestramento di modelli avanzati di visione e linguaggio. Per modelli discriminativi come CLIP, osserviamo prestazioni zero-shot migliorate nei compiti di recupero cross-modale. Per modelli generativi come i Diffusion Transformer per la generazione di immagini da testo, le immagini generate mostrano un miglioramento significativo nell'allineamento con le istruzioni testuali degli utenti, specialmente nel seguire query complesse. La nostra pagina del progetto è https://www.haqtu.me/Recap-Datacomp-1B/
English
Web-crawled image-text pairs are inherently noisy. Prior studies demonstrate
that semantically aligning and enriching textual descriptions of these pairs
can significantly enhance model training across various vision-language tasks,
particularly text-to-image generation. However, large-scale investigations in
this area remain predominantly closed-source. Our paper aims to bridge this
community effort, leveraging the powerful and open-sourced LLaMA-3, a
GPT-4 level LLM. Our recaptioning pipeline is simple: first, we fine-tune a
LLaMA-3-8B powered LLaVA-1.5 and then employ it to recaption 1.3 billion images
from the DataComp-1B dataset. Our empirical results confirm that this enhanced
dataset, Recap-DataComp-1B, offers substantial benefits in training advanced
vision-language models. For discriminative models like CLIP, we observe
enhanced zero-shot performance in cross-modal retrieval tasks. For generative
models like text-to-image Diffusion Transformers, the generated images exhibit
a significant improvement in alignment with users' text instructions,
especially in following complex queries. Our project page is
https://www.haqtu.me/Recap-Datacomp-1B/