ImagenHub: Стандартизация оценки моделей условной генерации изображений
ImagenHub: Standardizing the evaluation of conditional image generation models
October 2, 2023
Авторы: Max Ku, Tianle Li, Kai Zhang, Yujie Lu, Xingyu Fu, Wenwen Zhuang, Wenhu Chen
cs.AI
Аннотация
В последнее время было разработано множество моделей условной генерации и редактирования изображений для решения различных задач, включая генерацию изображений по тексту, редактирование изображений с текстовым руководством, генерацию изображений на основе объектов, генерацию изображений с управлением и т.д. Однако мы наблюдаем значительные несоответствия в экспериментальных условиях: наборах данных, процессе вывода и метриках оценки, что затрудняет объективное сравнение. В данной статье предлагается ImagenHub — универсальная библиотека для стандартизации вывода и оценки всех моделей условной генерации изображений. Во-первых, мы определяем семь ключевых задач и создаем высококачественные наборы данных для их оценки. Во-вторых, мы разрабатываем унифицированный конвейер вывода для обеспечения справедливого сравнения. В-третьих, мы разрабатываем две метрики для человеческой оценки: семантическую согласованность и перцептивное качество, а также подробные руководства для оценки сгенерированных изображений. Мы обучаем экспертов для оценки выходных данных моделей на основе предложенных метрик. Наша человеческая оценка демонстрирует высокий уровень согласия между оценщиками, измеряемый коэффициентом альфа Криппендорфа, для 76% моделей со значением выше 0,4. Мы провели всестороннюю оценку около 30 моделей и выделили три ключевых вывода: (1) производительность существующих моделей в целом неудовлетворительна, за исключением задач генерации изображений по тексту и генерации изображений на основе объектов, при этом 74% моделей получили общий балл ниже 0,5. (2) мы проверили заявления из опубликованных статей и обнаружили, что 83% из них подтверждаются, за исключением нескольких случаев. (3) Ни одна из существующих автоматических метрик не имеет коэффициента корреляции Спирмена выше 0,2, за исключением генерации изображений на основе объектов. В дальнейшем мы продолжим оценивать новые модели и обновлять наш рейтинг, чтобы отслеживать прогресс в области условной генерации изображений.
English
Recently, a myriad of conditional image generation and editing models have
been developed to serve different downstream tasks, including text-to-image
generation, text-guided image editing, subject-driven image generation,
control-guided image generation, etc. However, we observe huge inconsistencies
in experimental conditions: datasets, inference, and evaluation metrics -
render fair comparisons difficult. This paper proposes ImagenHub, which is a
one-stop library to standardize the inference and evaluation of all the
conditional image generation models. Firstly, we define seven prominent tasks
and curate high-quality evaluation datasets for them. Secondly, we built a
unified inference pipeline to ensure fair comparison. Thirdly, we design two
human evaluation scores, i.e. Semantic Consistency and Perceptual Quality,
along with comprehensive guidelines to evaluate generated images. We train
expert raters to evaluate the model outputs based on the proposed metrics. Our
human evaluation achieves a high inter-worker agreement of Krippendorff's alpha
on 76% models with a value higher than 0.4. We comprehensively evaluated a
total of around 30 models and observed three key takeaways: (1) the existing
models' performance is generally unsatisfying except for Text-guided Image
Generation and Subject-driven Image Generation, with 74% models achieving an
overall score lower than 0.5. (2) we examined the claims from published papers
and found 83% of them hold with a few exceptions. (3) None of the existing
automatic metrics has a Spearman's correlation higher than 0.2 except
subject-driven image generation. Moving forward, we will continue our efforts
to evaluate newly published models and update our leaderboard to keep track of
the progress in conditional image generation.