ChatPaper.aiChatPaper

Was passiert, wenn wir Milliarden von Webbildern mit LLaMA-3 neu beschriften?

What If We Recaption Billions of Web Images with LLaMA-3?

June 12, 2024
Autoren: Xianhang Li, Haoqin Tu, Mude Hui, Zeyu Wang, Bingchen Zhao, Junfei Xiao, Sucheng Ren, Jieru Mei, Qing Liu, Huangjie Zheng, Yuyin Zhou, Cihang Xie
cs.AI

Zusammenfassung

Web-gecrawlte Bild-Text-Paare sind grundsätzlich rauschanfällig. Frühere Studien zeigen, dass eine semantische Ausrichtung und Anreicherung der textuellen Beschreibungen dieser Paare das Modelltraining bei verschiedenen Vision-Language-Aufgaben erheblich verbessern kann, insbesondere bei der Text-zu-Bild-Generierung. Allerdings sind groß angelegte Untersuchungen in diesem Bereich überwiegend Closed-Source. Unser Paper zielt darauf ab, diese Gemeinschaftsbemühung zu unterstützen, indem wir auf das leistungsstarke und Open-Source LLaMA-3 zurückgreifen, ein LLM auf GPT-4-Niveau. Unser Re-Captioning-Pipeline ist einfach: Zunächst feinjustieren wir ein LLaMA-3-8B-betriebenes LLaVA-1.5 und setzen es dann ein, um 1,3 Milliarden Bilder aus dem DataComp-1B-Datensatz neu zu beschriften. Unsere empirischen Ergebnisse bestätigen, dass dieser verbesserte Datensatz, Recap-DataComp-1B, erhebliche Vorteile beim Training fortschrittlicher Vision-Language-Modelle bietet. Für diskriminative Modelle wie CLIP beobachten wir eine verbesserte Zero-Shot-Performance bei Cross-Modal-Retrieval-Aufgaben. Für generative Modelle wie Text-zu-Bild-Diffusionstransformatoren zeigen die generierten Bilder eine signifikante Verbesserung in der Ausrichtung auf die Textanweisungen der Benutzer, insbesondere bei komplexen Abfragen. Unsere Projektseite ist https://www.haqtu.me/Recap-Datacomp-1B/
English
Web-crawled image-text pairs are inherently noisy. Prior studies demonstrate that semantically aligning and enriching textual descriptions of these pairs can significantly enhance model training across various vision-language tasks, particularly text-to-image generation. However, large-scale investigations in this area remain predominantly closed-source. Our paper aims to bridge this community effort, leveraging the powerful and open-sourced LLaMA-3, a GPT-4 level LLM. Our recaptioning pipeline is simple: first, we fine-tune a LLaMA-3-8B powered LLaVA-1.5 and then employ it to recaption 1.3 billion images from the DataComp-1B dataset. Our empirical results confirm that this enhanced dataset, Recap-DataComp-1B, offers substantial benefits in training advanced vision-language models. For discriminative models like CLIP, we observe enhanced zero-shot performance in cross-modal retrieval tasks. For generative models like text-to-image Diffusion Transformers, the generated images exhibit a significant improvement in alignment with users' text instructions, especially in following complex queries. Our project page is https://www.haqtu.me/Recap-Datacomp-1B/

Summary

AI-Generated Summary

PDF421December 8, 2024