GenAI Arena: 생성 모델을 위한 오픈 평가 플랫폼
GenAI Arena: An Open Evaluation Platform for Generative Models
June 6, 2024
저자: Dongfu Jiang, Max Ku, Tianle Li, Yuansheng Ni, Shizhuo Sun, Rongqi Fan, Wenhu Chen
cs.AI
초록
생성형 AI는 이미지 및 비디오 생성과 같은 분야를 혁신적으로 변화시키며 놀라운 발전을 이루어 왔습니다. 이러한 발전은 혁신적인 알고리즘, 아키텍처, 그리고 데이터에 의해 주도되었습니다. 그러나 생성 모델의 급속한 확산은 중요한 문제를 부각시켰는데, 바로 신뢰할 수 있는 평가 지표의 부재입니다. 현재 FID, CLIP, FVD 등과 같은 자동 평가 방법은 생성 결과의 미묘한 품질과 사용자 만족도를 제대로 포착하지 못하는 경우가 많습니다. 본 논문은 다양한 이미지 및 비디오 생성 모델을 평가하기 위한 오픈 플랫폼인 GenAI-Arena를 제안합니다. 이 플랫폼에서는 사용자들이 적극적으로 모델 평가에 참여할 수 있습니다. GenAI-Arena는 사용자 피드백과 투표를 활용하여 모델 성능을 보다 민주적이고 정확하게 측정하는 것을 목표로 합니다. 이 플랫폼은 텍스트-이미지 생성, 텍스트-비디오 생성, 그리고 이미지 편집이라는 세 가지 영역을 다룹니다. 현재 총 27개의 오픈소스 생성 모델을 포함하고 있습니다. GenAI-Arena는 4개월 동안 운영되며 커뮤니티로부터 6000건 이상의 투표를 수집했습니다. 우리는 플랫폼을 설명하고, 데이터를 분석하며, 모델 순위를 매기기 위한 통계적 방법을 설명합니다. 모델 기반 평가 지표 연구를 더욱 촉진하기 위해, 우리는 세 가지 작업에 대한 선호도 데이터의 정제된 버전인 GenAI-Bench를 공개합니다. 우리는 Gemini, GPT-4o와 같은 기존의 다중 모달 모델들이 인간의 투표를 모방하도록 유도합니다. 모델 투표와 인간 투표 간의 상관관계를 계산하여 그들의 판단 능력을 이해합니다. 우리의 결과는 기존의 다중 모달 모델들이 생성된 시각적 콘텐츠를 평가하는 데 여전히 뒤처지고 있음을 보여줍니다. 가장 뛰어난 모델인 GPT-4o조차도 품질 하위 점수에서 피어슨 상관계수 0.22를 달성하며, 다른 항목에서는 무작위 추측과 유사한 행동을 보입니다.
English
Generative AI has made remarkable strides to revolutionize fields such as
image and video generation. These advancements are driven by innovative
algorithms, architecture, and data. However, the rapid proliferation of
generative models has highlighted a critical gap: the absence of trustworthy
evaluation metrics. Current automatic assessments such as FID, CLIP, FVD, etc
often fail to capture the nuanced quality and user satisfaction associated with
generative outputs. This paper proposes an open platform GenAI-Arena to
evaluate different image and video generative models, where users can actively
participate in evaluating these models. By leveraging collective user feedback
and votes, GenAI-Arena aims to provide a more democratic and accurate measure
of model performance. It covers three arenas for text-to-image generation,
text-to-video generation, and image editing respectively. Currently, we cover a
total of 27 open-source generative models. GenAI-Arena has been operating for
four months, amassing over 6000 votes from the community. We describe our
platform, analyze the data, and explain the statistical methods for ranking the
models. To further promote the research in building model-based evaluation
metrics, we release a cleaned version of our preference data for the three
tasks, namely GenAI-Bench. We prompt the existing multi-modal models like
Gemini, GPT-4o to mimic human voting. We compute the correlation between model
voting with human voting to understand their judging abilities. Our results
show existing multimodal models are still lagging in assessing the generated
visual content, even the best model GPT-4o only achieves a Pearson correlation
of 0.22 in the quality subscore, and behaves like random guessing in others.Summary
AI-Generated Summary