もしLLaMA-3で数十億のウェブ画像を再キャプションしたらどうなるだろうか?
What If We Recaption Billions of Web Images with LLaMA-3?
June 12, 2024
著者: Xianhang Li, Haoqin Tu, Mude Hui, Zeyu Wang, Bingchen Zhao, Junfei Xiao, Sucheng Ren, Jieru Mei, Qing Liu, Huangjie Zheng, Yuyin Zhou, Cihang Xie
cs.AI
要旨
ウェブクロールによって収集された画像とテキストのペアは、本質的にノイズを含んでいます。これまでの研究では、これらのペアのテキスト記述を意味的に整合させ、充実させることで、特にテキストから画像を生成するタスクにおいて、モデルのトレーニングを大幅に向上させることが実証されています。しかし、この分野における大規模な調査は、依然として主にクローズドソースのままです。本論文は、強力でオープンソースのGPT-4レベルの大規模言語モデルであるLLaMA-3を活用し、このコミュニティの取り組みを橋渡しすることを目指しています。私たちのリキャプショニングパイプラインはシンプルです。まず、LLaMA-3-8Bを基盤としたLLaVA-1.5をファインチューニングし、その後、DataComp-1Bデータセットの13億枚の画像に対してリキャプショニングを行います。私たちの実験結果は、この強化されたデータセットであるRecap-DataComp-1Bが、高度な視覚言語モデルのトレーニングにおいて大きな利点を提供することを確認しています。CLIPのような識別モデルでは、クロスモーダル検索タスクにおけるゼロショット性能の向上が観察されます。テキストから画像を生成するDiffusion Transformersのような生成モデルでは、生成された画像がユーザーのテキスト指示、特に複雑なクエリに従う点で大幅に改善されています。プロジェクトページはhttps://www.haqtu.me/Recap-Datacomp-1B/です。
English
Web-crawled image-text pairs are inherently noisy. Prior studies demonstrate
that semantically aligning and enriching textual descriptions of these pairs
can significantly enhance model training across various vision-language tasks,
particularly text-to-image generation. However, large-scale investigations in
this area remain predominantly closed-source. Our paper aims to bridge this
community effort, leveraging the powerful and open-sourced LLaMA-3, a
GPT-4 level LLM. Our recaptioning pipeline is simple: first, we fine-tune a
LLaMA-3-8B powered LLaVA-1.5 and then employ it to recaption 1.3 billion images
from the DataComp-1B dataset. Our empirical results confirm that this enhanced
dataset, Recap-DataComp-1B, offers substantial benefits in training advanced
vision-language models. For discriminative models like CLIP, we observe
enhanced zero-shot performance in cross-modal retrieval tasks. For generative
models like text-to-image Diffusion Transformers, the generated images exhibit
a significant improvement in alignment with users' text instructions,
especially in following complex queries. Our project page is
https://www.haqtu.me/Recap-Datacomp-1B/Summary
AI-Generated Summary