Holistische Evaluatie van Tekst-naar-Afbeelding Modellen
Holistic Evaluation of Text-To-Image Models
November 7, 2023
Auteurs: Tony Lee, Michihiro Yasunaga, Chenlin Meng, Yifan Mai, Joon Sung Park, Agrim Gupta, Yunzhi Zhang, Deepak Narayanan, Hannah Benita Teufel, Marco Bellagente, Minguk Kang, Taesung Park, Jure Leskovec, Jun-Yan Zhu, Li Fei-Fei, Jiajun Wu, Stefano Ermon, Percy Liang
cs.AI
Samenvatting
De indrukwekkende kwalitatieve verbetering van recente tekst-naar-beeldmodellen heeft geleid tot brede aandacht en adoptie. Echter, ontbreekt het ons aan een uitgebreid kwantitatief inzicht in hun mogelijkheden en risico's. Om deze leemte te vullen, introduceren we een nieuwe benchmark: Holistische Evaluatie van Tekst-naar-Beeldmodellen (HEIM). Waar eerdere evaluaties zich vooral richtten op tekst-beeldovereenstemming en beeldkwaliteit, identificeren wij 12 aspecten, waaronder tekst-beeldovereenstemming, beeldkwaliteit, esthetiek, originaliteit, redenering, kennis, bias, toxiciteit, eerlijkheid, robuustheid, meertaligheid en efficiëntie. We hebben 62 scenario's samengesteld die deze aspecten omvatten en evalueren 26 state-of-the-art tekst-naar-beeldmodellen op deze benchmark. Onze resultaten laten zien dat geen enkel model uitblinkt in alle aspecten, waarbij verschillende modellen verschillende sterke punten vertonen. We publiceren de gegenereerde afbeeldingen en de resultaten van de menselijke evaluatie voor volledige transparantie op https://crfm.stanford.edu/heim/v1.1.0 en de code op https://github.com/stanford-crfm/helm, die is geïntegreerd met de HELM-codebase.
English
The stunning qualitative improvement of recent text-to-image models has led
to their widespread attention and adoption. However, we lack a comprehensive
quantitative understanding of their capabilities and risks. To fill this gap,
we introduce a new benchmark, Holistic Evaluation of Text-to-Image Models
(HEIM). Whereas previous evaluations focus mostly on text-image alignment and
image quality, we identify 12 aspects, including text-image alignment, image
quality, aesthetics, originality, reasoning, knowledge, bias, toxicity,
fairness, robustness, multilinguality, and efficiency. We curate 62 scenarios
encompassing these aspects and evaluate 26 state-of-the-art text-to-image
models on this benchmark. Our results reveal that no single model excels in all
aspects, with different models demonstrating different strengths. We release
the generated images and human evaluation results for full transparency at
https://crfm.stanford.edu/heim/v1.1.0 and the code at
https://github.com/stanford-crfm/helm, which is integrated with the HELM
codebase.