GenAI Arena: открытая платформа оценки генеративных моделей
GenAI Arena: An Open Evaluation Platform for Generative Models
June 6, 2024
Авторы: Dongfu Jiang, Max Ku, Tianle Li, Yuansheng Ni, Shizhuo Sun, Rongqi Fan, Wenhu Chen
cs.AI
Аннотация
Генеративный искусственный интеллект совершил замечательные прорывы в революционизации областей, таких как генерация изображений и видео. Эти достижения обусловлены инновационными алгоритмами, архитектурой и данными. Однако быстрое распространение генеративных моделей выявило критическую проблему: отсутствие надежных метрик оценки. Текущие автоматические оценки, такие как FID, CLIP, FVD и т. д., часто не улавливают тонкое качество и удовлетворение пользователя, связанные с генеративными результатами. В данной статье предлагается открытая платформа GenAI-Arena для оценки различных моделей генерации изображений и видео, где пользователи могут активно участвовать в оценке этих моделей. Используя коллективную обратную связь и голоса пользователей, GenAI-Arena стремится предоставить более демократичную и точную меру производительности модели. Она охватывает три арены для генерации текста в изображения, генерации текста в видео и редактирования изображений соответственно. В настоящее время мы рассматриваем общее количество 27 открытых генеративных моделей. GenAI-Arena работает уже четыре месяца, собрав более 6000 голосов от сообщества. Мы описываем нашу платформу, анализируем данные и объясняем статистические методы для ранжирования моделей. Для дальнейшего продвижения исследований в области создания метрик оценки на основе моделей, мы выпускаем очищенную версию наших данных о предпочтениях для трех задач, а именно GenAI-Bench. Мы призываем существующие мультимодальные модели, такие как Gemini, GPT-4o, имитировать голосование людей. Мы вычисляем корреляцию между голосованием модели и голосованием людей, чтобы понять их способности к суждению. Наши результаты показывают, что существующие мультимодальные модели все еще отстают в оценке сгенерированного визуального контента, даже лучшая модель GPT-4o достигает только корреляции Пирсона 0,22 в подоценке качества и ведет себя как случайное угадывание в других случаях.
English
Generative AI has made remarkable strides to revolutionize fields such as
image and video generation. These advancements are driven by innovative
algorithms, architecture, and data. However, the rapid proliferation of
generative models has highlighted a critical gap: the absence of trustworthy
evaluation metrics. Current automatic assessments such as FID, CLIP, FVD, etc
often fail to capture the nuanced quality and user satisfaction associated with
generative outputs. This paper proposes an open platform GenAI-Arena to
evaluate different image and video generative models, where users can actively
participate in evaluating these models. By leveraging collective user feedback
and votes, GenAI-Arena aims to provide a more democratic and accurate measure
of model performance. It covers three arenas for text-to-image generation,
text-to-video generation, and image editing respectively. Currently, we cover a
total of 27 open-source generative models. GenAI-Arena has been operating for
four months, amassing over 6000 votes from the community. We describe our
platform, analyze the data, and explain the statistical methods for ranking the
models. To further promote the research in building model-based evaluation
metrics, we release a cleaned version of our preference data for the three
tasks, namely GenAI-Bench. We prompt the existing multi-modal models like
Gemini, GPT-4o to mimic human voting. We compute the correlation between model
voting with human voting to understand their judging abilities. Our results
show existing multimodal models are still lagging in assessing the generated
visual content, even the best model GPT-4o only achieves a Pearson correlation
of 0.22 in the quality subscore, and behaves like random guessing in others.Summary
AI-Generated Summary