Et si nous recaptions des milliards d'images web avec LLaMA-3 ?
What If We Recaption Billions of Web Images with LLaMA-3?
June 12, 2024
Auteurs: Xianhang Li, Haoqin Tu, Mude Hui, Zeyu Wang, Bingchen Zhao, Junfei Xiao, Sucheng Ren, Jieru Mei, Qing Liu, Huangjie Zheng, Yuyin Zhou, Cihang Xie
cs.AI
Résumé
Les paires image-texte extraites du web sont intrinsèquement bruitées. Des études antérieures démontrent que l'alignement sémantique et l'enrichissement des descriptions textuelles de ces paires peuvent considérablement améliorer l'entraînement des modèles pour diverses tâches de vision et langage, en particulier la génération d'images à partir de texte. Cependant, les investigations à grande échelle dans ce domaine restent majoritairement fermées. Notre article vise à combler cet effort communautaire en exploitant le puissant et open-source LLaMA-3, un modèle de langage de niveau GPT-4. Notre pipeline de recaptioning est simple : nous commençons par affiner un LLaVA-1.5 alimenté par LLaMA-3-8B, puis l'utilisons pour recapturer 1,3 milliard d'images du jeu de données DataComp-1B. Nos résultats empiriques confirment que ce jeu de données amélioré, Recap-DataComp-1B, offre des avantages substantiels pour l'entraînement de modèles avancés de vision et langage. Pour les modèles discriminatifs comme CLIP, nous observons une amélioration des performances en zero-shot pour les tâches de recherche cross-modale. Pour les modèles génératifs comme les Transformers de diffusion texte-image, les images générées montrent une amélioration significative dans l'alignement avec les instructions textuelles des utilisateurs, en particulier pour les requêtes complexes. Notre page de projet est disponible à l'adresse suivante : https://www.haqtu.me/Recap-Datacomp-1B/
English
Web-crawled image-text pairs are inherently noisy. Prior studies demonstrate
that semantically aligning and enriching textual descriptions of these pairs
can significantly enhance model training across various vision-language tasks,
particularly text-to-image generation. However, large-scale investigations in
this area remain predominantly closed-source. Our paper aims to bridge this
community effort, leveraging the powerful and open-sourced LLaMA-3, a
GPT-4 level LLM. Our recaptioning pipeline is simple: first, we fine-tune a
LLaMA-3-8B powered LLaVA-1.5 and then employ it to recaption 1.3 billion images
from the DataComp-1B dataset. Our empirical results confirm that this enhanced
dataset, Recap-DataComp-1B, offers substantial benefits in training advanced
vision-language models. For discriminative models like CLIP, we observe
enhanced zero-shot performance in cross-modal retrieval tasks. For generative
models like text-to-image Diffusion Transformers, the generated images exhibit
a significant improvement in alignment with users' text instructions,
especially in following complex queries. Our project page is
https://www.haqtu.me/Recap-Datacomp-1B/Summary
AI-Generated Summary