LLaMA-3로 수십억 개의 웹 이미지를 다시 캡션하면 어떻게 될까?
What If We Recaption Billions of Web Images with LLaMA-3?
June 12, 2024
저자: Xianhang Li, Haoqin Tu, Mude Hui, Zeyu Wang, Bingchen Zhao, Junfei Xiao, Sucheng Ren, Jieru Mei, Qing Liu, Huangjie Zheng, Yuyin Zhou, Cihang Xie
cs.AI
초록
웹에서 크롤링된 이미지-텍스트 쌍은 본질적으로 노이즈가 포함되어 있습니다. 선행 연구에 따르면, 이러한 쌍의 텍스트 설명을 의미론적으로 정렬하고 풍부하게 하는 것이 다양한 시각-언어 작업, 특히 텍스트-이미지 생성 작업에서 모델 훈련을 크게 향상시킬 수 있음이 입증되었습니다. 그러나 이 분야의 대규모 연구는 주로 비공개로 진행되고 있습니다. 본 논문은 이러한 커뮤니티의 노력을 이어가기 위해, GPT-4 수준의 대형 언어 모델인 LLaMA-3를 활용합니다. 우리의 재캡션 파이프라인은 간단합니다: 먼저, LLaMA-3-8B 기반의 LLaVA-1.5를 미세 조정한 후, 이를 사용하여 DataComp-1B 데이터셋의 13억 개 이미지에 대해 재캡션을 수행합니다. 실험 결과, 이렇게 개선된 데이터셋인 Recap-DataComp-1B가 고급 시각-언어 모델 훈련에 상당한 이점을 제공함이 확인되었습니다. CLIP과 같은 판별 모델의 경우, 교차 모달 검색 작업에서 제로샷 성능이 향상되었습니다. 텍스트-이미지 Diffusion Transformer와 같은 생성 모델의 경우, 생성된 이미지가 사용자의 텍스트 지시, 특히 복잡한 쿼리를 따르는 데 있어 상당한 개선을 보였습니다. 프로젝트 페이지는 https://www.haqtu.me/Recap-Datacomp-1B/에서 확인할 수 있습니다.
English
Web-crawled image-text pairs are inherently noisy. Prior studies demonstrate
that semantically aligning and enriching textual descriptions of these pairs
can significantly enhance model training across various vision-language tasks,
particularly text-to-image generation. However, large-scale investigations in
this area remain predominantly closed-source. Our paper aims to bridge this
community effort, leveraging the powerful and open-sourced LLaMA-3, a
GPT-4 level LLM. Our recaptioning pipeline is simple: first, we fine-tune a
LLaMA-3-8B powered LLaVA-1.5 and then employ it to recaption 1.3 billion images
from the DataComp-1B dataset. Our empirical results confirm that this enhanced
dataset, Recap-DataComp-1B, offers substantial benefits in training advanced
vision-language models. For discriminative models like CLIP, we observe
enhanced zero-shot performance in cross-modal retrieval tasks. For generative
models like text-to-image Diffusion Transformers, the generated images exhibit
a significant improvement in alignment with users' text instructions,
especially in following complex queries. Our project page is
https://www.haqtu.me/Recap-Datacomp-1B/Summary
AI-Generated Summary