Evaluación Integral de Modelos de Texto a Imagen
Holistic Evaluation of Text-To-Image Models
November 7, 2023
Autores: Tony Lee, Michihiro Yasunaga, Chenlin Meng, Yifan Mai, Joon Sung Park, Agrim Gupta, Yunzhi Zhang, Deepak Narayanan, Hannah Benita Teufel, Marco Bellagente, Minguk Kang, Taesung Park, Jure Leskovec, Jun-Yan Zhu, Li Fei-Fei, Jiajun Wu, Stefano Ermon, Percy Liang
cs.AI
Resumen
La impresionante mejora cualitativa de los modelos recientes de texto a imagen ha generado una atención y adopción generalizadas. Sin embargo, carecemos de una comprensión cuantitativa integral de sus capacidades y riesgos. Para abordar esta brecha, presentamos un nuevo punto de referencia: la Evaluación Holística de Modelos de Texto a Imagen (HEIM, por sus siglas en inglés). Mientras que evaluaciones previas se centran principalmente en la alineación texto-imagen y la calidad de la imagen, nosotros identificamos 12 aspectos, incluyendo la alineación texto-imagen, la calidad de la imagen, la estética, la originalidad, el razonamiento, el conocimiento, el sesgo, la toxicidad, la equidad, la robustez, la multilingüidad y la eficiencia. Hemos seleccionado 62 escenarios que abarcan estos aspectos y evaluamos 26 modelos de texto a imagen de última generación en este punto de referencia. Nuestros resultados revelan que ningún modelo sobresale en todos los aspectos, ya que diferentes modelos demuestran diferentes fortalezas. Publicamos las imágenes generadas y los resultados de la evaluación humana para una total transparencia en https://crfm.stanford.edu/heim/v1.1.0, así como el código en https://github.com/stanford-crfm/helm, el cual está integrado con la base de código de HELM.
English
The stunning qualitative improvement of recent text-to-image models has led
to their widespread attention and adoption. However, we lack a comprehensive
quantitative understanding of their capabilities and risks. To fill this gap,
we introduce a new benchmark, Holistic Evaluation of Text-to-Image Models
(HEIM). Whereas previous evaluations focus mostly on text-image alignment and
image quality, we identify 12 aspects, including text-image alignment, image
quality, aesthetics, originality, reasoning, knowledge, bias, toxicity,
fairness, robustness, multilinguality, and efficiency. We curate 62 scenarios
encompassing these aspects and evaluate 26 state-of-the-art text-to-image
models on this benchmark. Our results reveal that no single model excels in all
aspects, with different models demonstrating different strengths. We release
the generated images and human evaluation results for full transparency at
https://crfm.stanford.edu/heim/v1.1.0 and the code at
https://github.com/stanford-crfm/helm, which is integrated with the HELM
codebase.