ChatPaper.aiChatPaper

Ganzheitliche Bewertung von Text-zu-Bild-Modellen

Holistic Evaluation of Text-To-Image Models

November 7, 2023
Autoren: Tony Lee, Michihiro Yasunaga, Chenlin Meng, Yifan Mai, Joon Sung Park, Agrim Gupta, Yunzhi Zhang, Deepak Narayanan, Hannah Benita Teufel, Marco Bellagente, Minguk Kang, Taesung Park, Jure Leskovec, Jun-Yan Zhu, Li Fei-Fei, Jiajun Wu, Stefano Ermon, Percy Liang
cs.AI

Zusammenfassung

Die beeindruckende qualitative Verbesserung der jüngsten Text-zu-Bild-Modelle hat zu ihrer weit verbreiteten Aufmerksamkeit und Nutzung geführt. Allerdings fehlt ein umfassendes quantitatives Verständnis ihrer Fähigkeiten und Risiken. Um diese Lücke zu schließen, führen wir einen neuen Benchmark ein, die Holistic Evaluation of Text-to-Bild-Modelle (HEIM). Während sich frühere Bewertungen hauptsächlich auf die Text-Bild-Ausrichtung und die Bildqualität konzentrierten, identifizieren wir 12 Aspekte, darunter Text-Bild-Ausrichtung, Bildqualität, Ästhetik, Originalität, logisches Denken, Wissen, Voreingenommenheit, Toxizität, Fairness, Robustheit, Mehrsprachigkeit und Effizienz. Wir erstellen 62 Szenarien, die diese Aspekte abdecken, und bewerten 26 state-of-the-art Text-zu-Bild-Modelle anhand dieses Benchmarks. Unsere Ergebnisse zeigen, dass kein einzelnes Modell in allen Aspekten hervorragt, sondern verschiedene Modelle unterschiedliche Stärken aufweisen. Wir veröffentlichen die generierten Bilder und die Ergebnisse der menschlichen Bewertung für vollständige Transparenz unter https://crfm.stanford.edu/heim/v1.1.0 sowie den Code unter https://github.com/stanford-crfm/helm, der in die HELM-Codebasis integriert ist.
English
The stunning qualitative improvement of recent text-to-image models has led to their widespread attention and adoption. However, we lack a comprehensive quantitative understanding of their capabilities and risks. To fill this gap, we introduce a new benchmark, Holistic Evaluation of Text-to-Image Models (HEIM). Whereas previous evaluations focus mostly on text-image alignment and image quality, we identify 12 aspects, including text-image alignment, image quality, aesthetics, originality, reasoning, knowledge, bias, toxicity, fairness, robustness, multilinguality, and efficiency. We curate 62 scenarios encompassing these aspects and evaluate 26 state-of-the-art text-to-image models on this benchmark. Our results reveal that no single model excels in all aspects, with different models demonstrating different strengths. We release the generated images and human evaluation results for full transparency at https://crfm.stanford.edu/heim/v1.1.0 and the code at https://github.com/stanford-crfm/helm, which is integrated with the HELM codebase.
PDF160December 15, 2024