Wat Als We Miljarden Webafbeeldingen Opnieuw Beschrijven Met LLaMA-3?
What If We Recaption Billions of Web Images with LLaMA-3?
June 12, 2024
Auteurs: Xianhang Li, Haoqin Tu, Mude Hui, Zeyu Wang, Bingchen Zhao, Junfei Xiao, Sucheng Ren, Jieru Mei, Qing Liu, Huangjie Zheng, Yuyin Zhou, Cihang Xie
cs.AI
Samenvatting
Beeld-tekstparen die via webcrawling zijn verzameld, zijn inherent onnauwkeurig. Eerdere studies tonen aan dat het semantisch uitlijnen en verrijken van de tekstuele beschrijvingen van deze paren de modeltraining voor diverse visie-taal taken aanzienlijk kan verbeteren, met name bij tekst-naar-beeld generatie. Grootschalig onderzoek op dit gebied blijft echter voornamelijk gesloten. Ons artikel heeft als doel deze gemeenschappelijke inspanning te overbruggen door gebruik te maken van de krachtige en open-source LLaMA-3, een GPT-4-niveau LLM. Onze herbeschrijvingspijplijn is eenvoudig: eerst fine-tunen we een LLaMA-3-8B aangedreven LLaVA-1.5 en vervolgens gebruiken we deze om 1,3 miljard afbeeldingen uit de DataComp-1B dataset opnieuw te beschrijven. Onze empirische resultaten bevestigen dat deze verbeterde dataset, Recap-DataComp-1B, aanzienlijke voordelen biedt bij het trainen van geavanceerde visie-taal modellen. Voor discriminerende modellen zoals CLIP, observeren we een verbeterde zero-shot prestaties in cross-modale retrieval taken. Voor generatieve modellen zoals tekst-naar-beeld Diffusion Transformers, vertonen de gegenereerde afbeeldingen een aanzienlijke verbetering in de afstemming met de tekstuele instructies van gebruikers, vooral bij het volgen van complexe queries. Onze projectpagina is te vinden op https://www.haqtu.me/Recap-Datacomp-1B/.
English
Web-crawled image-text pairs are inherently noisy. Prior studies demonstrate
that semantically aligning and enriching textual descriptions of these pairs
can significantly enhance model training across various vision-language tasks,
particularly text-to-image generation. However, large-scale investigations in
this area remain predominantly closed-source. Our paper aims to bridge this
community effort, leveraging the powerful and open-sourced LLaMA-3, a
GPT-4 level LLM. Our recaptioning pipeline is simple: first, we fine-tune a
LLaMA-3-8B powered LLaVA-1.5 and then employ it to recaption 1.3 billion images
from the DataComp-1B dataset. Our empirical results confirm that this enhanced
dataset, Recap-DataComp-1B, offers substantial benefits in training advanced
vision-language models. For discriminative models like CLIP, we observe
enhanced zero-shot performance in cross-modal retrieval tasks. For generative
models like text-to-image Diffusion Transformers, the generated images exhibit
a significant improvement in alignment with users' text instructions,
especially in following complex queries. Our project page is
https://www.haqtu.me/Recap-Datacomp-1B/