ChatPaper.aiChatPaper

GenAI Arena : Une plateforme ouverte d'évaluation pour les modèles génératifs

GenAI Arena: An Open Evaluation Platform for Generative Models

June 6, 2024
papers.authors: Dongfu Jiang, Max Ku, Tianle Li, Yuansheng Ni, Shizhuo Sun, Rongqi Fan, Wenhu Chen
cs.AI

papers.abstract

L'IA générative a réalisé des progrès remarquables, révolutionnant des domaines tels que la génération d'images et de vidéos. Ces avancées sont portées par des algorithmes, des architectures et des données innovants. Cependant, la prolifération rapide des modèles génératifs a mis en lumière un manque critique : l'absence de métriques d'évaluation fiables. Les évaluations automatiques actuelles, telles que FID, CLIP, FVD, etc., échouent souvent à capturer la qualité nuancée et la satisfaction des utilisateurs associées aux sorties génératives. Ce papier propose une plateforme ouverte, GenAI-Arena, pour évaluer différents modèles génératifs d'images et de vidéos, où les utilisateurs peuvent participer activement à l'évaluation de ces modèles. En s'appuyant sur les retours et les votes collectifs des utilisateurs, GenAI-Arena vise à fournir une mesure plus démocratique et précise de la performance des modèles. Elle couvre trois arènes respectivement dédiées à la génération texte-image, texte-vidéo et à l'édition d'images. Actuellement, nous couvrons un total de 27 modèles génératifs open-source. GenAI-Arena fonctionne depuis quatre mois, accumulant plus de 6000 votes de la communauté. Nous décrivons notre plateforme, analysons les données et expliquons les méthodes statistiques pour classer les modèles. Pour promouvoir davantage la recherche sur les métriques d'évaluation basées sur des modèles, nous publions une version nettoyée de nos données de préférence pour les trois tâches, nommée GenAI-Bench. Nous incitons les modèles multimodaux existants comme Gemini et GPT-4o à imiter le vote humain. Nous calculons la corrélation entre les votes des modèles et les votes humains pour comprendre leurs capacités de jugement. Nos résultats montrent que les modèles multimodaux existants sont encore à la traîne dans l'évaluation du contenu visuel généré, même le meilleur modèle, GPT-4o, n'atteint qu'une corrélation de Pearson de 0,22 pour le sous-score de qualité, et se comporte comme un choix aléatoire dans les autres.
English
Generative AI has made remarkable strides to revolutionize fields such as image and video generation. These advancements are driven by innovative algorithms, architecture, and data. However, the rapid proliferation of generative models has highlighted a critical gap: the absence of trustworthy evaluation metrics. Current automatic assessments such as FID, CLIP, FVD, etc often fail to capture the nuanced quality and user satisfaction associated with generative outputs. This paper proposes an open platform GenAI-Arena to evaluate different image and video generative models, where users can actively participate in evaluating these models. By leveraging collective user feedback and votes, GenAI-Arena aims to provide a more democratic and accurate measure of model performance. It covers three arenas for text-to-image generation, text-to-video generation, and image editing respectively. Currently, we cover a total of 27 open-source generative models. GenAI-Arena has been operating for four months, amassing over 6000 votes from the community. We describe our platform, analyze the data, and explain the statistical methods for ranking the models. To further promote the research in building model-based evaluation metrics, we release a cleaned version of our preference data for the three tasks, namely GenAI-Bench. We prompt the existing multi-modal models like Gemini, GPT-4o to mimic human voting. We compute the correlation between model voting with human voting to understand their judging abilities. Our results show existing multimodal models are still lagging in assessing the generated visual content, even the best model GPT-4o only achieves a Pearson correlation of 0.22 in the quality subscore, and behaves like random guessing in others.
PDF230December 8, 2024