Автоматический сборщик вишен: обучение на высококачественных генеративных данных, управляемых языком
Auto Cherry-Picker: Learning from High-quality Generative Data Driven by Language
June 28, 2024
Авторы: Yicheng Chen, Xiangtai Li, Yining Li, Yanhong Zeng, Jianzong Wu, Xiangyu Zhao, Kai Chen
cs.AI
Аннотация
Модели на основе диффузии показали большой потенциал в генерации изображений высокого качества с различными композициями, что может быть полезно для последующих задач восприятия. Однако полностью автоматическая генерация композиций, управляемая только языком, и подходящая метрика для измерения нескольких сгенерированных экземпляров пока недостаточно исследованы. В данной работе мы представляем Auto Cherry-Picker (ACP), новую структуру, которая генерирует многомодальные обучающие примеры высокого качества для расширения восприятия и многомодального обучения. Начиная с простого списка естественноязыковых концепций, мы подталкиваем крупные языковые модели (LLM) к генерации подробного описания и разработке разумных композиций. Затем мы используем готовую модель текста в изображение для генерации нескольких изображений. Затем сгенерированные данные улучшаются с использованием всесторонне разработанной метрики для обеспечения качества. В частности, мы представляем новую метрику, Составной Рейтинг Композиции и Изображения (CLIS), для справедливой оценки сгенерированных изображений. Наши синтетические примеры высокого качества повышают производительность в различных сценариях путем настройки начального списка концепций, особенно при решении проблем, связанных с длиннохвостым распределением и несбалансированными наборами данных. Результаты экспериментов на последующих задачах демонстрируют, что Auto Cherry-Picker может значительно улучшить производительность существующих моделей. Кроме того, мы тщательно исследовали корреляцию между CLIS и увеличением производительности на последующих задачах и обнаружили, что более высокий балл CLIS приводит к лучшей производительности. Это открытие показывает потенциал метрик оценки в качестве роли для различных задач визуального восприятия и MLLM. Код будет доступен.
English
Diffusion-based models have shown great potential in generating high-quality
images with various layouts, which can benefit downstream perception tasks.
However, a fully automatic layout generation driven only by language and a
suitable metric for measuring multiple generated instances has not been well
explored. In this work, we present Auto Cherry-Picker (ACP), a novel framework
that generates high-quality multi-modal training examples to augment perception
and multi-modal training. Starting with a simple list of natural language
concepts, we prompt large language models (LLMs) to generate a detailed
description and design reasonable layouts. Next, we use an off-the-shelf
text-to-image model to generate multiple images. Then, the generated data are
refined using a comprehensively designed metric to ensure quality. In
particular, we present a new metric, Composite Layout and Image Score (CLIS),
to evaluate the generated images fairly. Our synthetic high-quality examples
boost performance in various scenarios by customizing the initial concept list,
especially in addressing challenges associated with long-tailed distribution
and imbalanced datasets. Experiment results on downstream tasks demonstrate
that Auto Cherry-Picker can significantly improve the performance of existing
models. In addition, we have thoroughly investigated the correlation between
CLIS and performance gains in downstream tasks, and we find that a better CLIS
score results in better performance. This finding shows the potential for
evaluation metrics as the role for various visual perception and MLLM tasks.
Code will be available.Summary
AI-Generated Summary