GenAI Arena: Eine offene Evaluierungsplattform für generative Modelle
GenAI Arena: An Open Evaluation Platform for Generative Models
June 6, 2024
Autoren: Dongfu Jiang, Max Ku, Tianle Li, Yuansheng Ni, Shizhuo Sun, Rongqi Fan, Wenhu Chen
cs.AI
Zusammenfassung
Die generative KI hat bemerkenswerte Fortschritte gemacht, um Bereiche wie die Bild- und Videoerzeugung zu revolutionieren. Diese Fortschritte werden durch innovative Algorithmen, Architekturen und Daten vorangetrieben. Die rasche Verbreitung generativer Modelle hat jedoch eine kritische Lücke aufgezeigt: das Fehlen vertrauenswürdiger Bewertungsmetriken. Aktuelle automatische Bewertungen wie FID, CLIP, FVD usw. können oft nicht die nuancierte Qualität und Benutzerzufriedenheit erfassen, die mit generativen Ergebnissen verbunden sind. Dieses Papier schlägt eine offene Plattform GenAI-Arena zur Bewertung verschiedener Bild- und Video-generativer Modelle vor, bei der Benutzer aktiv an der Bewertung dieser Modelle teilnehmen können. Durch die Nutzung kollektiver Benutzerfeedbacks und -stimmen zielt GenAI-Arena darauf ab, ein demokratischeres und genaueres Maß für die Leistung der Modelle bereitzustellen. Es umfasst drei Arenen für die Text-zu-Bild-Erzeugung, Text-zu-Video-Erzeugung und Bildbearbeitung. Derzeit decken wir insgesamt 27 Open-Source-generative Modelle ab. GenAI-Arena ist seit vier Monaten in Betrieb und hat über 6000 Stimmen aus der Community gesammelt. Wir beschreiben unsere Plattform, analysieren die Daten und erläutern die statistischen Methoden zur Bewertung der Modelle. Um die Forschung zur Entwicklung modellbasierter Bewertungsmetriken weiter zu fördern, veröffentlichen wir eine bereinigte Version unserer Präferenzdaten für die drei Aufgaben, nämlich GenAI-Bench. Wir fordern die bestehenden multimodalen Modelle wie Gemini, GPT-4o auf, menschliche Abstimmungen nachzuahmen. Wir berechnen die Korrelation zwischen der Modellabstimmung und der menschlichen Abstimmung, um ihre Bewertungsfähigkeiten zu verstehen. Unsere Ergebnisse zeigen, dass bestehende multimodale Modelle immer noch hinterherhinken, um den generierten visuellen Inhalt zu bewerten. Selbst das beste Modell GPT-4o erreicht nur eine Pearson-Korrelation von 0,22 im Qualitäts-Teilergebnis und verhält sich bei anderen wie zufälliges Raten.
English
Generative AI has made remarkable strides to revolutionize fields such as
image and video generation. These advancements are driven by innovative
algorithms, architecture, and data. However, the rapid proliferation of
generative models has highlighted a critical gap: the absence of trustworthy
evaluation metrics. Current automatic assessments such as FID, CLIP, FVD, etc
often fail to capture the nuanced quality and user satisfaction associated with
generative outputs. This paper proposes an open platform GenAI-Arena to
evaluate different image and video generative models, where users can actively
participate in evaluating these models. By leveraging collective user feedback
and votes, GenAI-Arena aims to provide a more democratic and accurate measure
of model performance. It covers three arenas for text-to-image generation,
text-to-video generation, and image editing respectively. Currently, we cover a
total of 27 open-source generative models. GenAI-Arena has been operating for
four months, amassing over 6000 votes from the community. We describe our
platform, analyze the data, and explain the statistical methods for ranking the
models. To further promote the research in building model-based evaluation
metrics, we release a cleaned version of our preference data for the three
tasks, namely GenAI-Bench. We prompt the existing multi-modal models like
Gemini, GPT-4o to mimic human voting. We compute the correlation between model
voting with human voting to understand their judging abilities. Our results
show existing multimodal models are still lagging in assessing the generated
visual content, even the best model GPT-4o only achieves a Pearson correlation
of 0.22 in the quality subscore, and behaves like random guessing in others.Summary
AI-Generated Summary