Что, если мы переопишем миллиарды веб-изображений с помощью LLaMA-3?
What If We Recaption Billions of Web Images with LLaMA-3?
June 12, 2024
Авторы: Xianhang Li, Haoqin Tu, Mude Hui, Zeyu Wang, Bingchen Zhao, Junfei Xiao, Sucheng Ren, Jieru Mei, Qing Liu, Huangjie Zheng, Yuyin Zhou, Cihang Xie
cs.AI
Аннотация
Пары изображений и текста, полученные веб-сканированием, по своей природе содержат шум. Предыдущие исследования показывают, что семантическое выравнивание и обогащение текстовых описаний этих пар могут значительно улучшить обучение моделей в различных задачах видео-языкового восприятия, особенно в генерации текста по изображению. Однако крупномасштабные исследования в этой области по-прежнему в основном закрыты для общественности. Наша статья нацелена на объединение усилий сообщества, используя мощную и открытую LLaMA-3, модель на уровне GPT-4. Наша конвейерная система перекапшионинга проста: сначала мы донастраиваем LLaVA-1.5 на основе LLaMA-3-8B, а затем используем его для перекапшионирования 1,3 миллиарда изображений из набора данных DataComp-1B. Наши эмпирические результаты подтверждают, что этот улучшенный набор данных, Recap-DataComp-1B, предлагает существенные преимущества при обучении передовых моделей видео-языкового восприятия. Для дискриминативных моделей, таких как CLIP, мы наблюдаем улучшенную производительность в задачах кросс-модального поиска без обучения. Для генеративных моделей, таких как Диффузионные трансформеры текста-изображения, сгенерированные изображения показывают значительное улучшение в соответствии с текстовыми инструкциями пользователей, особенно при выполнении сложных запросов. Наша страница проекта: https://www.haqtu.me/Recap-Datacomp-1B/
English
Web-crawled image-text pairs are inherently noisy. Prior studies demonstrate
that semantically aligning and enriching textual descriptions of these pairs
can significantly enhance model training across various vision-language tasks,
particularly text-to-image generation. However, large-scale investigations in
this area remain predominantly closed-source. Our paper aims to bridge this
community effort, leveraging the powerful and open-sourced LLaMA-3, a
GPT-4 level LLM. Our recaptioning pipeline is simple: first, we fine-tune a
LLaMA-3-8B powered LLaVA-1.5 and then employ it to recaption 1.3 billion images
from the DataComp-1B dataset. Our empirical results confirm that this enhanced
dataset, Recap-DataComp-1B, offers substantial benefits in training advanced
vision-language models. For discriminative models like CLIP, we observe
enhanced zero-shot performance in cross-modal retrieval tasks. For generative
models like text-to-image Diffusion Transformers, the generated images exhibit
a significant improvement in alignment with users' text instructions,
especially in following complex queries. Our project page is
https://www.haqtu.me/Recap-Datacomp-1B/Summary
AI-Generated Summary