ImagenHub : Normalisation de l'évaluation des modèles de génération d'images conditionnelles
ImagenHub: Standardizing the evaluation of conditional image generation models
October 2, 2023
papers.authors: Max Ku, Tianle Li, Kai Zhang, Yujie Lu, Xingyu Fu, Wenwen Zhuang, Wenhu Chen
cs.AI
papers.abstract
Récemment, une multitude de modèles de génération et d'édition d'images conditionnelles ont été développés pour répondre à différentes tâches en aval, notamment la génération d'images à partir de texte, l'édition d'images guidée par texte, la génération d'images pilotée par un sujet, la génération d'images guidée par des contrôles, etc. Cependant, nous observons d'importantes incohérences dans les conditions expérimentales : jeux de données, inférence et métriques d'évaluation, ce qui rend les comparaisons équitables difficiles. Ce papier propose ImagenHub, une bibliothèque tout-en-un pour standardiser l'inférence et l'évaluation de tous les modèles de génération d'images conditionnelles. Premièrement, nous définissons sept tâches majeures et constituons des jeux de données d'évaluation de haute qualité pour celles-ci. Deuxièmement, nous avons construit un pipeline d'inférence unifié pour garantir des comparaisons équitables. Troisièmement, nous concevons deux scores d'évaluation humaine, à savoir la Cohérence Sémantique et la Qualité Perceptive, ainsi que des directives complètes pour évaluer les images générées. Nous formons des évaluateurs experts pour juger les sorties des modèles selon les métriques proposées. Notre évaluation humaine atteint un accord inter-évaluateurs élevé, avec un alpha de Krippendorff supérieur à 0,4 pour 76 % des modèles. Nous avons évalué de manière exhaustive un total d'environ 30 modèles et observé trois conclusions clés : (1) les performances des modèles existants sont généralement insatisfaisantes, à l'exception de la Génération d'Images Guidée par Texte et de la Génération d'Images Pilotée par un Sujet, avec 74 % des modèles obtenant un score global inférieur à 0,5. (2) Nous avons examiné les affirmations des articles publiés et constaté que 83 % d'entre elles tiennent, à quelques exceptions près. (3) Aucune des métriques automatiques existantes n'a une corrélation de Spearman supérieure à 0,2, sauf pour la génération d'images pilotée par un sujet. À l'avenir, nous continuerons nos efforts pour évaluer les nouveaux modèles publiés et mettre à jour notre classement afin de suivre les progrès dans le domaine de la génération d'images conditionnelles.
English
Recently, a myriad of conditional image generation and editing models have
been developed to serve different downstream tasks, including text-to-image
generation, text-guided image editing, subject-driven image generation,
control-guided image generation, etc. However, we observe huge inconsistencies
in experimental conditions: datasets, inference, and evaluation metrics -
render fair comparisons difficult. This paper proposes ImagenHub, which is a
one-stop library to standardize the inference and evaluation of all the
conditional image generation models. Firstly, we define seven prominent tasks
and curate high-quality evaluation datasets for them. Secondly, we built a
unified inference pipeline to ensure fair comparison. Thirdly, we design two
human evaluation scores, i.e. Semantic Consistency and Perceptual Quality,
along with comprehensive guidelines to evaluate generated images. We train
expert raters to evaluate the model outputs based on the proposed metrics. Our
human evaluation achieves a high inter-worker agreement of Krippendorff's alpha
on 76% models with a value higher than 0.4. We comprehensively evaluated a
total of around 30 models and observed three key takeaways: (1) the existing
models' performance is generally unsatisfying except for Text-guided Image
Generation and Subject-driven Image Generation, with 74% models achieving an
overall score lower than 0.5. (2) we examined the claims from published papers
and found 83% of them hold with a few exceptions. (3) None of the existing
automatic metrics has a Spearman's correlation higher than 0.2 except
subject-driven image generation. Moving forward, we will continue our efforts
to evaluate newly published models and update our leaderboard to keep track of
the progress in conditional image generation.