ChatPaper.aiChatPaper

GenAI Arena: Een Open Evaluatieplatform voor Generatieve Modellen

GenAI Arena: An Open Evaluation Platform for Generative Models

June 6, 2024
Auteurs: Dongfu Jiang, Max Ku, Tianle Li, Yuansheng Ni, Shizhuo Sun, Rongqi Fan, Wenhu Chen
cs.AI

Samenvatting

Generatieve AI heeft opmerkelijke vooruitgang geboekt om vakgebieden zoals beeld- en videogeneratie te revolutioneren. Deze vooruitgang wordt aangedreven door innovatieve algoritmen, architectuur en data. De snelle opkomst van generatieve modellen heeft echter een kritieke leemte blootgelegd: het ontbreken van betrouwbare evaluatiemetrics. Huidige automatische beoordelingen zoals FID, CLIP, FVD, enz. slagen er vaak niet in om de genuanceerde kwaliteit en gebruikers tevredenheid van generatieve output te vatten. Dit artikel stelt een open platform voor, GenAI-Arena, om verschillende beeld- en videogeneratieve modellen te evalueren, waar gebruikers actief kunnen deelnemen aan de beoordeling van deze modellen. Door gebruik te maken van collectieve gebruikersfeedback en stemmen, streeft GenAI-Arena ernaar om een meer democratische en accurate maatstaf voor modelprestaties te bieden. Het platform beslaat drie arena's voor respectievelijk tekst-naar-beeldgeneratie, tekst-naar-videogeneratie en beeldbewerking. Momenteel omvat het in totaal 27 open-source generatieve modellen. GenAI-Arena is vier maanden operationeel geweest en heeft meer dan 6000 stemmen van de gemeenschap verzameld. We beschrijven ons platform, analyseren de data en leggen de statistische methoden uit voor het rangschikken van de modellen. Om verder onderzoek te bevorderen in het ontwikkelen van modelgebaseerde evaluatiemetrics, geven we een opgeschoonde versie van onze voorkeursdata vrij voor de drie taken, genaamd GenAI-Bench. We vragen bestaande multimodale modellen zoals Gemini en GPT-4o om menselijk stemgedrag na te bootsen. We berekenen de correlatie tussen modelstemmen en menselijke stemmen om hun beoordelingsvermogen te begrijpen. Onze resultaten laten zien dat bestaande multimodale modellen nog achterlopen in het beoordelen van gegenereerde visuele content, waarbij zelfs het beste model, GPT-4o, slechts een Pearson-correlatie van 0,22 behaalt in de kwaliteitssubscore en zich in andere opzichten gedraagt als willekeurig gissen.
English
Generative AI has made remarkable strides to revolutionize fields such as image and video generation. These advancements are driven by innovative algorithms, architecture, and data. However, the rapid proliferation of generative models has highlighted a critical gap: the absence of trustworthy evaluation metrics. Current automatic assessments such as FID, CLIP, FVD, etc often fail to capture the nuanced quality and user satisfaction associated with generative outputs. This paper proposes an open platform GenAI-Arena to evaluate different image and video generative models, where users can actively participate in evaluating these models. By leveraging collective user feedback and votes, GenAI-Arena aims to provide a more democratic and accurate measure of model performance. It covers three arenas for text-to-image generation, text-to-video generation, and image editing respectively. Currently, we cover a total of 27 open-source generative models. GenAI-Arena has been operating for four months, amassing over 6000 votes from the community. We describe our platform, analyze the data, and explain the statistical methods for ranking the models. To further promote the research in building model-based evaluation metrics, we release a cleaned version of our preference data for the three tasks, namely GenAI-Bench. We prompt the existing multi-modal models like Gemini, GPT-4o to mimic human voting. We compute the correlation between model voting with human voting to understand their judging abilities. Our results show existing multimodal models are still lagging in assessing the generated visual content, even the best model GPT-4o only achieves a Pearson correlation of 0.22 in the quality subscore, and behaves like random guessing in others.
PDF220February 7, 2026