ImagenHub: Standaardisatie van de evaluatie van conditionele beeldgeneratiemodellen
ImagenHub: Standardizing the evaluation of conditional image generation models
October 2, 2023
Auteurs: Max Ku, Tianle Li, Kai Zhang, Yujie Lu, Xingyu Fu, Wenwen Zhuang, Wenhu Chen
cs.AI
Samenvatting
Onlangs is een veelvoud aan conditionele beeldgeneratie- en bewerkingsmodellen ontwikkeld om verschillende downstreamtaken te dienen, waaronder tekst-naar-beeldgeneratie, tekstgeleide beeldbewerking, onderwerpgestuurde beeldgeneratie, controlegeleide beeldgeneratie, enz. We observeren echter grote inconsistenties in experimentele omstandigheden: datasets, inferentie en evaluatiemetrics, wat eerlijke vergelijkingen bemoeilijkt. Dit artikel stelt ImagenHub voor, een one-stop-bibliotheek om de inferentie en evaluatie van alle conditionele beeldgeneratiemodellen te standaardiseren. Ten eerste definiëren we zeven prominente taken en stellen we hoogwaardige evaluatiedatasets hiervoor samen. Ten tweede hebben we een uniform inferentiepijplijn gebouwd om een eerlijke vergelijking te waarborgen. Ten derde ontwerpen we twee menselijke evaluatiescores, namelijk Semantische Consistentie en Perceptuele Kwaliteit, samen met uitgebreide richtlijnen om gegenereerde beelden te evalueren. We trainen expertbeoordelaars om de modeluitvoer te evalueren op basis van de voorgestelde metrics. Onze menselijke evaluatie bereikt een hoge interbeoordelaarsovereenkomst van Krippendorff's alpha op 76% van de modellen met een waarde hoger dan 0,4. We hebben in totaal ongeveer 30 modellen uitgebreid geëvalueerd en drie belangrijke bevindingen waargenomen: (1) de prestaties van de bestaande modellen zijn over het algemeen onbevredigend, behalve voor Tekstgeleide Beeldgeneratie en Onderwerpgestuurde Beeldgeneratie, waarbij 74% van de modellen een totaalscore behaalt die lager is dan 0,5. (2) We hebben de claims uit gepubliceerde artikelen onderzocht en ontdekten dat 83% ervan standhoudt met enkele uitzonderingen. (3) Geen van de bestaande automatische metrics heeft een Spearman-correlatie hoger dan 0,2, behalve onderwerpgestuurde beeldgeneratie. In de toekomst zullen we onze inspanningen voortzetten om nieuw gepubliceerde modellen te evalueren en onze leaderboard bij te werken om de voortgang in conditionele beeldgeneratie bij te houden.
English
Recently, a myriad of conditional image generation and editing models have
been developed to serve different downstream tasks, including text-to-image
generation, text-guided image editing, subject-driven image generation,
control-guided image generation, etc. However, we observe huge inconsistencies
in experimental conditions: datasets, inference, and evaluation metrics -
render fair comparisons difficult. This paper proposes ImagenHub, which is a
one-stop library to standardize the inference and evaluation of all the
conditional image generation models. Firstly, we define seven prominent tasks
and curate high-quality evaluation datasets for them. Secondly, we built a
unified inference pipeline to ensure fair comparison. Thirdly, we design two
human evaluation scores, i.e. Semantic Consistency and Perceptual Quality,
along with comprehensive guidelines to evaluate generated images. We train
expert raters to evaluate the model outputs based on the proposed metrics. Our
human evaluation achieves a high inter-worker agreement of Krippendorff's alpha
on 76% models with a value higher than 0.4. We comprehensively evaluated a
total of around 30 models and observed three key takeaways: (1) the existing
models' performance is generally unsatisfying except for Text-guided Image
Generation and Subject-driven Image Generation, with 74% models achieving an
overall score lower than 0.5. (2) we examined the claims from published papers
and found 83% of them hold with a few exceptions. (3) None of the existing
automatic metrics has a Spearman's correlation higher than 0.2 except
subject-driven image generation. Moving forward, we will continue our efforts
to evaluate newly published models and update our leaderboard to keep track of
the progress in conditional image generation.