GenAI Arena: Una Piattaforma Aperta di Valutazione per Modelli Generativi
GenAI Arena: An Open Evaluation Platform for Generative Models
June 6, 2024
Autori: Dongfu Jiang, Max Ku, Tianle Li, Yuansheng Ni, Shizhuo Sun, Rongqi Fan, Wenhu Chen
cs.AI
Abstract
L'IA generativa ha compiuto progressi straordinari nel rivoluzionare campi come la generazione di immagini e video. Questi avanzamenti sono guidati da algoritmi, architetture e dati innovativi. Tuttavia, la rapida proliferazione di modelli generativi ha evidenziato una lacuna critica: l'assenza di metriche di valutazione affidabili. Le attuali valutazioni automatiche come FID, CLIP, FVD, ecc., spesso non riescono a cogliere la qualità sfumata e la soddisfazione dell'utente associata agli output generativi. Questo articolo propone una piattaforma aperta, GenAI-Arena, per valutare diversi modelli generativi di immagini e video, dove gli utenti possono partecipare attivamente alla valutazione di questi modelli. Sfruttando il feedback collettivo e i voti degli utenti, GenAI-Arena mira a fornire una misura più democratica e accurata delle prestazioni dei modelli. Copre tre arene rispettivamente per la generazione di immagini da testo, la generazione di video da testo e l'editing di immagini. Attualmente, copriamo un totale di 27 modelli generativi open-source. GenAI-Arena è operativa da quattro mesi, raccogliendo oltre 6000 voti dalla comunità. Descriviamo la nostra piattaforma, analizziamo i dati e spieghiamo i metodi statistici per classificare i modelli. Per promuovere ulteriormente la ricerca nella costruzione di metriche di valutazione basate su modelli, rilasciamo una versione pulita dei nostri dati di preferenza per i tre compiti, denominata GenAI-Bench. Sollecitiamo i modelli multimodali esistenti come Gemini e GPT-4o a imitare il voto umano. Calcoliamo la correlazione tra il voto dei modelli e quello umano per comprendere le loro capacità di giudizio. I nostri risultati mostrano che i modelli multimodali esistenti sono ancora in ritardo nella valutazione del contenuto visivo generato, persino il miglior modello, GPT-4o, raggiunge solo una correlazione di Pearson di 0,22 nel sottopunteggio di qualità e si comporta come un'ipotesi casuale negli altri.
English
Generative AI has made remarkable strides to revolutionize fields such as
image and video generation. These advancements are driven by innovative
algorithms, architecture, and data. However, the rapid proliferation of
generative models has highlighted a critical gap: the absence of trustworthy
evaluation metrics. Current automatic assessments such as FID, CLIP, FVD, etc
often fail to capture the nuanced quality and user satisfaction associated with
generative outputs. This paper proposes an open platform GenAI-Arena to
evaluate different image and video generative models, where users can actively
participate in evaluating these models. By leveraging collective user feedback
and votes, GenAI-Arena aims to provide a more democratic and accurate measure
of model performance. It covers three arenas for text-to-image generation,
text-to-video generation, and image editing respectively. Currently, we cover a
total of 27 open-source generative models. GenAI-Arena has been operating for
four months, amassing over 6000 votes from the community. We describe our
platform, analyze the data, and explain the statistical methods for ranking the
models. To further promote the research in building model-based evaluation
metrics, we release a cleaned version of our preference data for the three
tasks, namely GenAI-Bench. We prompt the existing multi-modal models like
Gemini, GPT-4o to mimic human voting. We compute the correlation between model
voting with human voting to understand their judging abilities. Our results
show existing multimodal models are still lagging in assessing the generated
visual content, even the best model GPT-4o only achieves a Pearson correlation
of 0.22 in the quality subscore, and behaves like random guessing in others.