Avaliação Holística de Modelos de Texto para Imagem
Holistic Evaluation of Text-To-Image Models
November 7, 2023
Autores: Tony Lee, Michihiro Yasunaga, Chenlin Meng, Yifan Mai, Joon Sung Park, Agrim Gupta, Yunzhi Zhang, Deepak Narayanan, Hannah Benita Teufel, Marco Bellagente, Minguk Kang, Taesung Park, Jure Leskovec, Jun-Yan Zhu, Li Fei-Fei, Jiajun Wu, Stefano Ermon, Percy Liang
cs.AI
Resumo
A impressionante melhoria qualitativa dos recentes modelos de texto para imagem levou à sua ampla atenção e adoção. No entanto, carecemos de uma compreensão quantitativa abrangente de suas capacidades e riscos. Para preencher essa lacuna, introduzimos um novo benchmark, a Avaliação Holística de Modelos de Texto para Imagem (HEIM). Enquanto avaliações anteriores focavam principalmente no alinhamento texto-imagem e na qualidade da imagem, identificamos 12 aspectos, incluindo alinhamento texto-imagem, qualidade da imagem, estética, originalidade, raciocínio, conhecimento, viés, toxicidade, justiça, robustez, multilinguismo e eficiência. Curamos 62 cenários que abrangem esses aspectos e avaliamos 26 modelos de texto para imagem de última geração neste benchmark. Nossos resultados revelam que nenhum modelo único se destaca em todos os aspectos, com diferentes modelos demonstrando diferentes pontos fortes. Disponibilizamos as imagens geradas e os resultados das avaliações humanas para total transparência em https://crfm.stanford.edu/heim/v1.1.0 e o código em https://github.com/stanford-crfm/helm, que está integrado à base de código do HELM.
English
The stunning qualitative improvement of recent text-to-image models has led
to their widespread attention and adoption. However, we lack a comprehensive
quantitative understanding of their capabilities and risks. To fill this gap,
we introduce a new benchmark, Holistic Evaluation of Text-to-Image Models
(HEIM). Whereas previous evaluations focus mostly on text-image alignment and
image quality, we identify 12 aspects, including text-image alignment, image
quality, aesthetics, originality, reasoning, knowledge, bias, toxicity,
fairness, robustness, multilinguality, and efficiency. We curate 62 scenarios
encompassing these aspects and evaluate 26 state-of-the-art text-to-image
models on this benchmark. Our results reveal that no single model excels in all
aspects, with different models demonstrating different strengths. We release
the generated images and human evaluation results for full transparency at
https://crfm.stanford.edu/heim/v1.1.0 and the code at
https://github.com/stanford-crfm/helm, which is integrated with the HELM
codebase.