Valutazione Olistica dei Modelli di Generazione di Immagini da Testo
Holistic Evaluation of Text-To-Image Models
November 7, 2023
Autori: Tony Lee, Michihiro Yasunaga, Chenlin Meng, Yifan Mai, Joon Sung Park, Agrim Gupta, Yunzhi Zhang, Deepak Narayanan, Hannah Benita Teufel, Marco Bellagente, Minguk Kang, Taesung Park, Jure Leskovec, Jun-Yan Zhu, Li Fei-Fei, Jiajun Wu, Stefano Ermon, Percy Liang
cs.AI
Abstract
Il sorprendente miglioramento qualitativo dei recenti modelli di generazione di immagini da testo ha portato a una diffusa attenzione e adozione. Tuttavia, manca una comprensione quantitativa completa delle loro capacità e dei rischi. Per colmare questa lacuna, introduciamo un nuovo benchmark, Holistic Evaluation of Text-to-Image Models (HEIM). Mentre le valutazioni precedenti si concentravano principalmente sull'allineamento testo-immagine e sulla qualità dell'immagine, noi identifichiamo 12 aspetti, tra cui allineamento testo-immagine, qualità dell'immagine, estetica, originalità, ragionamento, conoscenza, bias, tossicità, equità, robustezza, multilingualismo ed efficienza. Abbiamo curato 62 scenari che coprono questi aspetti e valutato 26 modelli all'avanguardia di generazione di immagini da testo su questo benchmark. I nostri risultati rivelano che nessun singolo modello eccelle in tutti gli aspetti, con diversi modelli che dimostrano punti di forza differenti. Rilasciamo le immagini generate e i risultati delle valutazioni umane per una completa trasparenza all'indirizzo https://crfm.stanford.edu/heim/v1.1.0 e il codice all'indirizzo https://github.com/stanford-crfm/helm, integrato con la codebase di HELM.
English
The stunning qualitative improvement of recent text-to-image models has led
to their widespread attention and adoption. However, we lack a comprehensive
quantitative understanding of their capabilities and risks. To fill this gap,
we introduce a new benchmark, Holistic Evaluation of Text-to-Image Models
(HEIM). Whereas previous evaluations focus mostly on text-image alignment and
image quality, we identify 12 aspects, including text-image alignment, image
quality, aesthetics, originality, reasoning, knowledge, bias, toxicity,
fairness, robustness, multilinguality, and efficiency. We curate 62 scenarios
encompassing these aspects and evaluate 26 state-of-the-art text-to-image
models on this benchmark. Our results reveal that no single model excels in all
aspects, with different models demonstrating different strengths. We release
the generated images and human evaluation results for full transparency at
https://crfm.stanford.edu/heim/v1.1.0 and the code at
https://github.com/stanford-crfm/helm, which is integrated with the HELM
codebase.