GenAI Arena: Una Plataforma Abierta de Evaluación para Modelos Generativos
GenAI Arena: An Open Evaluation Platform for Generative Models
June 6, 2024
Autores: Dongfu Jiang, Max Ku, Tianle Li, Yuansheng Ni, Shizhuo Sun, Rongqi Fan, Wenhu Chen
cs.AI
Resumen
La IA generativa ha logrado avances notables para revolucionar campos como la generación de imágenes y videos. Estos progresos están impulsados por algoritmos, arquitecturas y datos innovadores. Sin embargo, la rápida proliferación de modelos generativos ha puesto de manifiesto una brecha crítica: la ausencia de métricas de evaluación confiables. Las evaluaciones automáticas actuales, como FID, CLIP, FVD, etc., a menudo no logran capturar la calidad matizada y la satisfacción del usuario asociadas con los resultados generativos. Este artículo propone una plataforma abierta, GenAI-Arena, para evaluar diferentes modelos generativos de imágenes y videos, donde los usuarios pueden participar activamente en la evaluación de estos modelos. Al aprovechar los comentarios y votos colectivos de los usuarios, GenAI-Arena tiene como objetivo proporcionar una medida más democrática y precisa del rendimiento de los modelos. Cubre tres áreas: generación de texto a imagen, generación de texto a video y edición de imágenes, respectivamente. Actualmente, incluimos un total de 27 modelos generativos de código abierto. GenAI-Arena ha estado operando durante cuatro meses, acumulando más de 6000 votos de la comunidad. Describimos nuestra plataforma, analizamos los datos y explicamos los métodos estadísticos para clasificar los modelos. Para fomentar aún más la investigación en la construcción de métricas de evaluación basadas en modelos, publicamos una versión depurada de nuestros datos de preferencia para las tres tareas, denominada GenAI-Bench. Instamos a los modelos multimodales existentes, como Gemini y GPT-4o, a imitar el voto humano. Calculamos la correlación entre los votos de los modelos y los votos humanos para comprender sus capacidades de juicio. Nuestros resultados muestran que los modelos multimodales existentes aún están rezagados en la evaluación del contenido visual generado; incluso el mejor modelo, GPT-4o, solo alcanza una correlación de Pearson de 0.22 en la subpuntuación de calidad y se comporta como una conjetura aleatoria en otros aspectos.
English
Generative AI has made remarkable strides to revolutionize fields such as
image and video generation. These advancements are driven by innovative
algorithms, architecture, and data. However, the rapid proliferation of
generative models has highlighted a critical gap: the absence of trustworthy
evaluation metrics. Current automatic assessments such as FID, CLIP, FVD, etc
often fail to capture the nuanced quality and user satisfaction associated with
generative outputs. This paper proposes an open platform GenAI-Arena to
evaluate different image and video generative models, where users can actively
participate in evaluating these models. By leveraging collective user feedback
and votes, GenAI-Arena aims to provide a more democratic and accurate measure
of model performance. It covers three arenas for text-to-image generation,
text-to-video generation, and image editing respectively. Currently, we cover a
total of 27 open-source generative models. GenAI-Arena has been operating for
four months, amassing over 6000 votes from the community. We describe our
platform, analyze the data, and explain the statistical methods for ranking the
models. To further promote the research in building model-based evaluation
metrics, we release a cleaned version of our preference data for the three
tasks, namely GenAI-Bench. We prompt the existing multi-modal models like
Gemini, GPT-4o to mimic human voting. We compute the correlation between model
voting with human voting to understand their judging abilities. Our results
show existing multimodal models are still lagging in assessing the generated
visual content, even the best model GPT-4o only achieves a Pearson correlation
of 0.22 in the quality subscore, and behaves like random guessing in others.Summary
AI-Generated Summary