ImagenHub : Normalisation de l'évaluation des modèles de génération d'images conditionnelles

papers.abstract

Récemment, une multitude de modèles de génération et d'édition d'images conditionnelles ont été développés pour répondre à différentes tâches en aval, notamment la génération d'images à partir de texte, l'édition d'images guidée par texte, la génération d'images pilotée par un sujet, la génération d'images guidée par des contrôles, etc. Cependant, nous observons d'importantes incohérences dans les conditions expérimentales : jeux de données, inférence et métriques d'évaluation, ce qui rend les comparaisons équitables difficiles. Ce papier propose ImagenHub, une bibliothèque tout-en-un pour standardiser l'inférence et l'évaluation de tous les modèles de génération d'images conditionnelles. Premièrement, nous définissons sept tâches majeures et constituons des jeux de données d'évaluation de haute qualité pour celles-ci. Deuxièmement, nous avons construit un pipeline d'inférence unifié pour garantir des comparaisons équitables. Troisièmement, nous concevons deux scores d'évaluation humaine, à savoir la Cohérence Sémantique et la Qualité Perceptive, ainsi que des directives complètes pour évaluer les images générées. Nous formons des évaluateurs experts pour juger les sorties des modèles selon les métriques proposées. Notre évaluation humaine atteint un accord inter-évaluateurs élevé, avec un alpha de Krippendorff supérieur à 0,4 pour 76 % des modèles. Nous avons évalué de manière exhaustive un total d'environ 30 modèles et observé trois conclusions clés : (1) les performances des modèles existants sont généralement insatisfaisantes, à l'exception de la Génération d'Images Guidée par Texte et de la Génération d'Images Pilotée par un Sujet, avec 74 % des modèles obtenant un score global inférieur à 0,5. (2) Nous avons examiné les affirmations des articles publiés et constaté que 83 % d'entre elles tiennent, à quelques exceptions près. (3) Aucune des métriques automatiques existantes n'a une corrélation de Spearman supérieure à 0,2, sauf pour la génération d'images pilotée par un sujet. À l'avenir, nous continuerons nos efforts pour évaluer les nouveaux modèles publiés et mettre à jour notre classement afin de suivre les progrès dans le domaine de la génération d'images conditionnelles.

English

Recently, a myriad of conditional image generation and editing models have been developed to serve different downstream tasks, including text-to-image generation, text-guided image editing, subject-driven image generation, control-guided image generation, etc. However, we observe huge inconsistencies in experimental conditions: datasets, inference, and evaluation metrics - render fair comparisons difficult. This paper proposes ImagenHub, which is a one-stop library to standardize the inference and evaluation of all the conditional image generation models. Firstly, we define seven prominent tasks and curate high-quality evaluation datasets for them. Secondly, we built a unified inference pipeline to ensure fair comparison. Thirdly, we design two human evaluation scores, i.e. Semantic Consistency and Perceptual Quality, along with comprehensive guidelines to evaluate generated images. We train expert raters to evaluate the model outputs based on the proposed metrics. Our human evaluation achieves a high inter-worker agreement of Krippendorff's alpha on 76% models with a value higher than 0.4. We comprehensively evaluated a total of around 30 models and observed three key takeaways: (1) the existing models' performance is generally unsatisfying except for Text-guided Image Generation and Subject-driven Image Generation, with 74% models achieving an overall score lower than 0.5. (2) we examined the claims from published papers and found 83% of them hold with a few exceptions. (3) None of the existing automatic metrics has a Spearman's correlation higher than 0.2 except subject-driven image generation. Moving forward, we will continue our efforts to evaluate newly published models and update our leaderboard to keep track of the progress in conditional image generation.

ImagenHub : Normalisation de l'évaluation des modèles de génération d'images conditionnelles

ImagenHub: Standardizing the evaluation of conditional image generation models

papers.abstract

Support