ChatPaper.aiChatPaper

ImagenHub: Padronizando a avaliação de modelos de geração condicional de imagens

ImagenHub: Standardizing the evaluation of conditional image generation models

October 2, 2023
Autores: Max Ku, Tianle Li, Kai Zhang, Yujie Lu, Xingyu Fu, Wenwen Zhuang, Wenhu Chen
cs.AI

Resumo

Recentemente, uma miríade de modelos de geração e edição condicional de imagens foi desenvolvida para atender a diferentes tarefas subsequentes, incluindo geração de texto para imagem, edição de imagens guiada por texto, geração de imagens orientada por sujeito, geração de imagens guiada por controle, entre outras. No entanto, observamos grandes inconsistências nas condições experimentais: conjuntos de dados, inferência e métricas de avaliação - o que torna difícil fazer comparações justas. Este artigo propõe o ImagenHub, que é uma biblioteca única para padronizar a inferência e a avaliação de todos os modelos de geração condicional de imagens. Em primeiro lugar, definimos sete tarefas proeminentes e selecionamos conjuntos de dados de avaliação de alta qualidade para elas. Em segundo lugar, construímos um pipeline de inferência unificado para garantir uma comparação justa. Em terceiro lugar, projetamos duas pontuações de avaliação humana, ou seja, Consistência Semântica e Qualidade Perceptiva, juntamente com diretrizes abrangentes para avaliar as imagens geradas. Treinamos avaliadores especializados para avaliar as saídas dos modelos com base nas métricas propostas. Nossa avaliação humana alcançou um alto acordo interavaliador de alfa de Krippendorff em 76% dos modelos, com um valor superior a 0,4. Avaliamos de forma abrangente um total de cerca de 30 modelos e observamos três conclusões principais: (1) o desempenho dos modelos existentes é geralmente insatisfatório, exceto para Geração de Imagens Guiada por Texto e Geração de Imagens Orientada por Sujeito, com 74% dos modelos alcançando uma pontuação geral inferior a 0,5. (2) examinamos as afirmações dos artigos publicados e descobrimos que 83% delas se mantêm, com poucas exceções. (3) Nenhuma das métricas automáticas existentes tem uma correlação de Spearman superior a 0,2, exceto a geração de imagens orientada por sujeito. Avançando, continuaremos nossos esforços para avaliar os modelos recém-publicados e atualizar nosso quadro de líderes para acompanhar o progresso na geração condicional de imagens.
English
Recently, a myriad of conditional image generation and editing models have been developed to serve different downstream tasks, including text-to-image generation, text-guided image editing, subject-driven image generation, control-guided image generation, etc. However, we observe huge inconsistencies in experimental conditions: datasets, inference, and evaluation metrics - render fair comparisons difficult. This paper proposes ImagenHub, which is a one-stop library to standardize the inference and evaluation of all the conditional image generation models. Firstly, we define seven prominent tasks and curate high-quality evaluation datasets for them. Secondly, we built a unified inference pipeline to ensure fair comparison. Thirdly, we design two human evaluation scores, i.e. Semantic Consistency and Perceptual Quality, along with comprehensive guidelines to evaluate generated images. We train expert raters to evaluate the model outputs based on the proposed metrics. Our human evaluation achieves a high inter-worker agreement of Krippendorff's alpha on 76% models with a value higher than 0.4. We comprehensively evaluated a total of around 30 models and observed three key takeaways: (1) the existing models' performance is generally unsatisfying except for Text-guided Image Generation and Subject-driven Image Generation, with 74% models achieving an overall score lower than 0.5. (2) we examined the claims from published papers and found 83% of them hold with a few exceptions. (3) None of the existing automatic metrics has a Spearman's correlation higher than 0.2 except subject-driven image generation. Moving forward, we will continue our efforts to evaluate newly published models and update our leaderboard to keep track of the progress in conditional image generation.
PDF193December 15, 2024