GenAI Arena: Uma Plataforma Aberta de Avaliação para Modelos Generativos
GenAI Arena: An Open Evaluation Platform for Generative Models
June 6, 2024
Autores: Dongfu Jiang, Max Ku, Tianle Li, Yuansheng Ni, Shizhuo Sun, Rongqi Fan, Wenhu Chen
cs.AI
Resumo
A IA generativa tem feito avanços notáveis para revolucionar áreas como a geração de imagens e vídeos. Esses progressos são impulsionados por algoritmos, arquiteturas e dados inovadores. No entanto, a rápida proliferação de modelos generativos destacou uma lacuna crítica: a ausência de métricas de avaliação confiáveis. As avaliações automáticas atuais, como FID, CLIP, FVD, etc., frequentemente falham em capturar a qualidade sutil e a satisfação do usuário associadas aos resultados gerados. Este artigo propõe uma plataforma aberta, a GenAI-Arena, para avaliar diferentes modelos generativos de imagens e vídeos, onde os usuários podem participar ativamente da avaliação desses modelos. Ao aproveitar o feedback coletivo e os votos dos usuários, a GenAI-Arena visa fornecer uma medida mais democrática e precisa do desempenho dos modelos. Ela abrange três arenas: geração de texto para imagem, geração de texto para vídeo e edição de imagem, respectivamente. Atualmente, cobrimos um total de 27 modelos generativos de código aberto. A GenAI-Arena está em operação há quatro meses, acumulando mais de 6000 votos da comunidade. Descrevemos nossa plataforma, analisamos os dados e explicamos os métodos estatísticos para classificar os modelos. Para promover ainda mais a pesquisa na construção de métricas de avaliação baseadas em modelos, liberamos uma versão limpa de nossos dados de preferência para as três tarefas, denominada GenAI-Bench. Solicitamos que modelos multimodais existentes, como Gemini e GPT-4o, imitem o voto humano. Calculamos a correlação entre o voto dos modelos e o voto humano para entender suas capacidades de julgamento. Nossos resultados mostram que os modelos multimodais existentes ainda estão atrasados na avaliação de conteúdo visual gerado, mesmo o melhor modelo, GPT-4o, alcança apenas uma correlação de Pearson de 0,22 no subscore de qualidade e se comporta como um palpite aleatório em outros aspectos.
English
Generative AI has made remarkable strides to revolutionize fields such as
image and video generation. These advancements are driven by innovative
algorithms, architecture, and data. However, the rapid proliferation of
generative models has highlighted a critical gap: the absence of trustworthy
evaluation metrics. Current automatic assessments such as FID, CLIP, FVD, etc
often fail to capture the nuanced quality and user satisfaction associated with
generative outputs. This paper proposes an open platform GenAI-Arena to
evaluate different image and video generative models, where users can actively
participate in evaluating these models. By leveraging collective user feedback
and votes, GenAI-Arena aims to provide a more democratic and accurate measure
of model performance. It covers three arenas for text-to-image generation,
text-to-video generation, and image editing respectively. Currently, we cover a
total of 27 open-source generative models. GenAI-Arena has been operating for
four months, amassing over 6000 votes from the community. We describe our
platform, analyze the data, and explain the statistical methods for ranking the
models. To further promote the research in building model-based evaluation
metrics, we release a cleaned version of our preference data for the three
tasks, namely GenAI-Bench. We prompt the existing multi-modal models like
Gemini, GPT-4o to mimic human voting. We compute the correlation between model
voting with human voting to understand their judging abilities. Our results
show existing multimodal models are still lagging in assessing the generated
visual content, even the best model GPT-4o only achieves a Pearson correlation
of 0.22 in the quality subscore, and behaves like random guessing in others.