GenAI Arena: Uma Plataforma Aberta de Avaliação para Modelos Generativos

Resumo

A IA generativa tem feito avanços notáveis para revolucionar áreas como a geração de imagens e vídeos. Esses progressos são impulsionados por algoritmos, arquiteturas e dados inovadores. No entanto, a rápida proliferação de modelos generativos destacou uma lacuna crítica: a ausência de métricas de avaliação confiáveis. As avaliações automáticas atuais, como FID, CLIP, FVD, etc., frequentemente falham em capturar a qualidade sutil e a satisfação do usuário associadas aos resultados gerados. Este artigo propõe uma plataforma aberta, a GenAI-Arena, para avaliar diferentes modelos generativos de imagens e vídeos, onde os usuários podem participar ativamente da avaliação desses modelos. Ao aproveitar o feedback coletivo e os votos dos usuários, a GenAI-Arena visa fornecer uma medida mais democrática e precisa do desempenho dos modelos. Ela abrange três arenas: geração de texto para imagem, geração de texto para vídeo e edição de imagem, respectivamente. Atualmente, cobrimos um total de 27 modelos generativos de código aberto. A GenAI-Arena está em operação há quatro meses, acumulando mais de 6000 votos da comunidade. Descrevemos nossa plataforma, analisamos os dados e explicamos os métodos estatísticos para classificar os modelos. Para promover ainda mais a pesquisa na construção de métricas de avaliação baseadas em modelos, liberamos uma versão limpa de nossos dados de preferência para as três tarefas, denominada GenAI-Bench. Solicitamos que modelos multimodais existentes, como Gemini e GPT-4o, imitem o voto humano. Calculamos a correlação entre o voto dos modelos e o voto humano para entender suas capacidades de julgamento. Nossos resultados mostram que os modelos multimodais existentes ainda estão atrasados na avaliação de conteúdo visual gerado, mesmo o melhor modelo, GPT-4o, alcança apenas uma correlação de Pearson de 0,22 no subscore de qualidade e se comporta como um palpite aleatório em outros aspectos.

English

Generative AI has made remarkable strides to revolutionize fields such as image and video generation. These advancements are driven by innovative algorithms, architecture, and data. However, the rapid proliferation of generative models has highlighted a critical gap: the absence of trustworthy evaluation metrics. Current automatic assessments such as FID, CLIP, FVD, etc often fail to capture the nuanced quality and user satisfaction associated with generative outputs. This paper proposes an open platform GenAI-Arena to evaluate different image and video generative models, where users can actively participate in evaluating these models. By leveraging collective user feedback and votes, GenAI-Arena aims to provide a more democratic and accurate measure of model performance. It covers three arenas for text-to-image generation, text-to-video generation, and image editing respectively. Currently, we cover a total of 27 open-source generative models. GenAI-Arena has been operating for four months, amassing over 6000 votes from the community. We describe our platform, analyze the data, and explain the statistical methods for ranking the models. To further promote the research in building model-based evaluation metrics, we release a cleaned version of our preference data for the three tasks, namely GenAI-Bench. We prompt the existing multi-modal models like Gemini, GPT-4o to mimic human voting. We compute the correlation between model voting with human voting to understand their judging abilities. Our results show existing multimodal models are still lagging in assessing the generated visual content, even the best model GPT-4o only achieves a Pearson correlation of 0.22 in the quality subscore, and behaves like random guessing in others.

GenAI Arena: Uma Plataforma Aberta de Avaliação para Modelos Generativos

GenAI Arena: An Open Evaluation Platform for Generative Models

Resumo

Support