Комплексная оценка моделей генерации изображений по текстовому описанию
Holistic Evaluation of Text-To-Image Models
November 7, 2023
Авторы: Tony Lee, Michihiro Yasunaga, Chenlin Meng, Yifan Mai, Joon Sung Park, Agrim Gupta, Yunzhi Zhang, Deepak Narayanan, Hannah Benita Teufel, Marco Bellagente, Minguk Kang, Taesung Park, Jure Leskovec, Jun-Yan Zhu, Li Fei-Fei, Jiajun Wu, Stefano Ermon, Percy Liang
cs.AI
Аннотация
Потрясающее качественное улучшение современных моделей генерации изображений по тексту привело к их широкому вниманию и внедрению. Однако нам не хватает всестороннего количественного понимания их возможностей и рисков. Чтобы заполнить этот пробел, мы представляем новый эталонный тест — Holistic Evaluation of Text-to-Image Models (HEIM). В то время как предыдущие оценки в основном сосредоточены на соответствии текста и изображения и качестве изображения, мы выделяем 12 аспектов, включая соответствие текста и изображения, качество изображения, эстетику, оригинальность, логическое мышление, знания, предвзятость, токсичность, справедливость, устойчивость, многоязычность и эффективность. Мы разработали 62 сценария, охватывающих эти аспекты, и оценили 26 современных моделей генерации изображений по тексту на этом эталоне. Наши результаты показывают, что ни одна модель не превосходит во всех аспектах, при этом разные модели демонстрируют разные сильные стороны. Мы публикуем сгенерированные изображения и результаты человеческой оценки для полной прозрачности на сайте https://crfm.stanford.edu/heim/v1.1.0, а также код на https://github.com/stanford-crfm/helm, который интегрирован с кодом HELM.
English
The stunning qualitative improvement of recent text-to-image models has led
to their widespread attention and adoption. However, we lack a comprehensive
quantitative understanding of their capabilities and risks. To fill this gap,
we introduce a new benchmark, Holistic Evaluation of Text-to-Image Models
(HEIM). Whereas previous evaluations focus mostly on text-image alignment and
image quality, we identify 12 aspects, including text-image alignment, image
quality, aesthetics, originality, reasoning, knowledge, bias, toxicity,
fairness, robustness, multilinguality, and efficiency. We curate 62 scenarios
encompassing these aspects and evaluate 26 state-of-the-art text-to-image
models on this benchmark. Our results reveal that no single model excels in all
aspects, with different models demonstrating different strengths. We release
the generated images and human evaluation results for full transparency at
https://crfm.stanford.edu/heim/v1.1.0 and the code at
https://github.com/stanford-crfm/helm, which is integrated with the HELM
codebase.