Évaluation holistique des modèles de génération d'images à partir de texte
Holistic Evaluation of Text-To-Image Models
November 7, 2023
Auteurs: Tony Lee, Michihiro Yasunaga, Chenlin Meng, Yifan Mai, Joon Sung Park, Agrim Gupta, Yunzhi Zhang, Deepak Narayanan, Hannah Benita Teufel, Marco Bellagente, Minguk Kang, Taesung Park, Jure Leskovec, Jun-Yan Zhu, Li Fei-Fei, Jiajun Wu, Stefano Ermon, Percy Liang
cs.AI
Résumé
L'amélioration qualitative impressionnante des récents modèles de génération d'images à partir de texte a suscité une attention et une adoption généralisées. Cependant, nous manquons d'une compréhension quantitative exhaustive de leurs capacités et de leurs risques. Pour combler cette lacune, nous introduisons un nouveau benchmark, l'Évaluation Holistique des Modèles de Génération d'Images à partir de Texte (HEIM). Alors que les évaluations précédentes se concentraient principalement sur l'alignement texte-image et la qualité de l'image, nous identifions 12 aspects, incluant l'alignement texte-image, la qualité de l'image, l'esthétique, l'originalité, le raisonnement, les connaissances, les biais, la toxicité, l'équité, la robustesse, le multilinguisme et l'efficacité. Nous avons conçu 62 scénarios couvrant ces aspects et évalué 26 modèles de pointe de génération d'images à partir de texte sur ce benchmark. Nos résultats révèlent qu'aucun modèle unique n'excelle dans tous les aspects, différents modèles démontrant des forces variées. Nous publions les images générées et les résultats d'évaluation humaine pour une transparence totale à l'adresse https://crfm.stanford.edu/heim/v1.1.0, ainsi que le code à l'adresse https://github.com/stanford-crfm/helm, qui est intégré à la base de code HELM.
English
The stunning qualitative improvement of recent text-to-image models has led
to their widespread attention and adoption. However, we lack a comprehensive
quantitative understanding of their capabilities and risks. To fill this gap,
we introduce a new benchmark, Holistic Evaluation of Text-to-Image Models
(HEIM). Whereas previous evaluations focus mostly on text-image alignment and
image quality, we identify 12 aspects, including text-image alignment, image
quality, aesthetics, originality, reasoning, knowledge, bias, toxicity,
fairness, robustness, multilinguality, and efficiency. We curate 62 scenarios
encompassing these aspects and evaluate 26 state-of-the-art text-to-image
models on this benchmark. Our results reveal that no single model excels in all
aspects, with different models demonstrating different strengths. We release
the generated images and human evaluation results for full transparency at
https://crfm.stanford.edu/heim/v1.1.0 and the code at
https://github.com/stanford-crfm/helm, which is integrated with the HELM
codebase.