GenAI Arena: Una Piattaforma Aperta di Valutazione per Modelli Generativi

Abstract

L'IA generativa ha compiuto progressi straordinari nel rivoluzionare campi come la generazione di immagini e video. Questi avanzamenti sono guidati da algoritmi, architetture e dati innovativi. Tuttavia, la rapida proliferazione di modelli generativi ha evidenziato una lacuna critica: l'assenza di metriche di valutazione affidabili. Le attuali valutazioni automatiche come FID, CLIP, FVD, ecc., spesso non riescono a cogliere la qualità sfumata e la soddisfazione dell'utente associata agli output generativi. Questo articolo propone una piattaforma aperta, GenAI-Arena, per valutare diversi modelli generativi di immagini e video, dove gli utenti possono partecipare attivamente alla valutazione di questi modelli. Sfruttando il feedback collettivo e i voti degli utenti, GenAI-Arena mira a fornire una misura più democratica e accurata delle prestazioni dei modelli. Copre tre arene rispettivamente per la generazione di immagini da testo, la generazione di video da testo e l'editing di immagini. Attualmente, copriamo un totale di 27 modelli generativi open-source. GenAI-Arena è operativa da quattro mesi, raccogliendo oltre 6000 voti dalla comunità. Descriviamo la nostra piattaforma, analizziamo i dati e spieghiamo i metodi statistici per classificare i modelli. Per promuovere ulteriormente la ricerca nella costruzione di metriche di valutazione basate su modelli, rilasciamo una versione pulita dei nostri dati di preferenza per i tre compiti, denominata GenAI-Bench. Sollecitiamo i modelli multimodali esistenti come Gemini e GPT-4o a imitare il voto umano. Calcoliamo la correlazione tra il voto dei modelli e quello umano per comprendere le loro capacità di giudizio. I nostri risultati mostrano che i modelli multimodali esistenti sono ancora in ritardo nella valutazione del contenuto visivo generato, persino il miglior modello, GPT-4o, raggiunge solo una correlazione di Pearson di 0,22 nel sottopunteggio di qualità e si comporta come un'ipotesi casuale negli altri.

English

Generative AI has made remarkable strides to revolutionize fields such as image and video generation. These advancements are driven by innovative algorithms, architecture, and data. However, the rapid proliferation of generative models has highlighted a critical gap: the absence of trustworthy evaluation metrics. Current automatic assessments such as FID, CLIP, FVD, etc often fail to capture the nuanced quality and user satisfaction associated with generative outputs. This paper proposes an open platform GenAI-Arena to evaluate different image and video generative models, where users can actively participate in evaluating these models. By leveraging collective user feedback and votes, GenAI-Arena aims to provide a more democratic and accurate measure of model performance. It covers three arenas for text-to-image generation, text-to-video generation, and image editing respectively. Currently, we cover a total of 27 open-source generative models. GenAI-Arena has been operating for four months, amassing over 6000 votes from the community. We describe our platform, analyze the data, and explain the statistical methods for ranking the models. To further promote the research in building model-based evaluation metrics, we release a cleaned version of our preference data for the three tasks, namely GenAI-Bench. We prompt the existing multi-modal models like Gemini, GPT-4o to mimic human voting. We compute the correlation between model voting with human voting to understand their judging abilities. Our results show existing multimodal models are still lagging in assessing the generated visual content, even the best model GPT-4o only achieves a Pearson correlation of 0.22 in the quality subscore, and behaves like random guessing in others.

GenAI Arena: Una Piattaforma Aperta di Valutazione per Modelli Generativi

GenAI Arena: An Open Evaluation Platform for Generative Models

Abstract

Support