ChatPaper.aiChatPaper

ImagenHub: Estandarización de la evaluación de modelos de generación condicional de imágenes

ImagenHub: Standardizing the evaluation of conditional image generation models

October 2, 2023
Autores: Max Ku, Tianle Li, Kai Zhang, Yujie Lu, Xingyu Fu, Wenwen Zhuang, Wenhu Chen
cs.AI

Resumen

Recientemente, se han desarrollado una gran variedad de modelos de generación y edición de imágenes condicionales para abordar diferentes tareas posteriores, incluyendo la generación de imágenes a partir de texto, la edición de imágenes guiada por texto, la generación de imágenes basada en sujetos, la generación de imágenes guiada por controles, entre otras. Sin embargo, observamos grandes inconsistencias en las condiciones experimentales: conjuntos de datos, inferencia y métricas de evaluación, lo que dificulta las comparaciones justas. Este artículo propone ImagenHub, una biblioteca integral para estandarizar la inferencia y evaluación de todos los modelos de generación de imágenes condicionales. En primer lugar, definimos siete tareas destacadas y seleccionamos conjuntos de datos de evaluación de alta calidad para ellas. En segundo lugar, construimos una canalización de inferencia unificada para garantizar comparaciones justas. En tercer lugar, diseñamos dos puntuaciones de evaluación humana, es decir, Consistencia Semántica y Calidad Perceptual, junto con pautas completas para evaluar las imágenes generadas. Capacitamos a evaluadores expertos para valorar las salidas de los modelos según las métricas propuestas. Nuestra evaluación humana alcanza un alto acuerdo inter-evaluador, con un alfa de Krippendorff superior a 0.4 en el 76% de los modelos. Evaluamos exhaustivamente un total de alrededor de 30 modelos y observamos tres conclusiones clave: (1) el rendimiento de los modelos existentes es generalmente insatisfactorio, excepto en la Generación de Imágenes Guiada por Texto y la Generación de Imágenes Basada en Sujetos, con un 74% de los modelos obteniendo una puntuación general inferior a 0.5. (2) examinamos las afirmaciones de los artículos publicados y encontramos que el 83% de ellas se sostienen, con algunas excepciones. (3) Ninguna de las métricas automáticas existentes tiene una correlación de Spearman superior a 0.2, excepto en la generación de imágenes basada en sujetos. En el futuro, continuaremos nuestros esfuerzos para evaluar los modelos recién publicados y actualizaremos nuestro ranking para seguir el progreso en la generación de imágenes condicionales.
English
Recently, a myriad of conditional image generation and editing models have been developed to serve different downstream tasks, including text-to-image generation, text-guided image editing, subject-driven image generation, control-guided image generation, etc. However, we observe huge inconsistencies in experimental conditions: datasets, inference, and evaluation metrics - render fair comparisons difficult. This paper proposes ImagenHub, which is a one-stop library to standardize the inference and evaluation of all the conditional image generation models. Firstly, we define seven prominent tasks and curate high-quality evaluation datasets for them. Secondly, we built a unified inference pipeline to ensure fair comparison. Thirdly, we design two human evaluation scores, i.e. Semantic Consistency and Perceptual Quality, along with comprehensive guidelines to evaluate generated images. We train expert raters to evaluate the model outputs based on the proposed metrics. Our human evaluation achieves a high inter-worker agreement of Krippendorff's alpha on 76% models with a value higher than 0.4. We comprehensively evaluated a total of around 30 models and observed three key takeaways: (1) the existing models' performance is generally unsatisfying except for Text-guided Image Generation and Subject-driven Image Generation, with 74% models achieving an overall score lower than 0.5. (2) we examined the claims from published papers and found 83% of them hold with a few exceptions. (3) None of the existing automatic metrics has a Spearman's correlation higher than 0.2 except subject-driven image generation. Moving forward, we will continue our efforts to evaluate newly published models and update our leaderboard to keep track of the progress in conditional image generation.
PDF193December 15, 2024