ChatPaper.aiChatPaper

K-정렬 아레나: K-지형 인간 선호도를 통한 생성 모델에 대한 효율적이고 신뢰할 수 있는 벤치마킹

K-Sort Arena: Efficient and Reliable Benchmarking for Generative Models via K-wise Human Preferences

August 26, 2024
저자: Zhikai Li, Xuewen Liu, Dongrong Fu, Jianquan Li, Qingyi Gu, Kurt Keutzer, Zhen Dong
cs.AI

초록

시각적 생성 모델의 신속한 발전으로 효율적이고 신뢰할 수 있는 평가 방법이 필요하다. 사용자들의 모델 비교에 대한 투표를 수집하는 Arena 플랫폼은 인간의 선호도에 따라 모델을 순위로 매길 수 있다. 그러나 전통적인 Arena 방법은 확립되어 있지만, 순위가 수렴하기 위해 과도한 비교가 필요하며 투표에서의 선호도 노이즈에 취약하다. 이는 현대적인 평가 도전에 맞는 더 나은 접근 방식이 필요함을 시사한다. 본 논문에서는 이미지와 비디오가 텍스트보다 높은 지각 직관성을 가지고 있어 여러 샘플을 동시에 신속하게 평가할 수 있는 통찰력을 기반으로 한 효율적이고 신뢰할 수 있는 K-Sort Arena를 소개한다. 결과적으로 K-Sort Arena는 K-개의 모델이 자유롭게 경쟁하는 K-비교를 사용하여, 이는 순위 비교보다 훨씬 더 풍부한 정보를 제공한다. 시스템의 견고성을 향상시키기 위해 확률적 모델링과 베이지안 업데이팅 기술을 활용한다. 더 많은 정보를 제공하기 위해 탐색-활용 기반의 매칭 전략을 제안한다. 실험에서 K-Sort Arena는 널리 사용되는 ELO 알고리즘보다 16.3배 빠른 수렴을 보여준다. 우수성을 더 검증하고 포괄적인 리더보드를 얻기 위해 우리는 최첨단 텍스트-이미지 및 텍스트-비디오 모델의 대중 평가를 통해 인간 피드백을 수집한다. 높은 효율성 덕분에 K-Sort Arena는 신규 모델을 지속적으로 통합하고 최소한의 투표로 리더보드를 업데이트할 수 있다. 우리의 프로젝트는 몇 달간의 내부 테스트를 거쳐 이제 https://huggingface.co/spaces/ksort/K-Sort-Arena에서 사용할 수 있다.
English
The rapid advancement of visual generative models necessitates efficient and reliable evaluation methods. Arena platform, which gathers user votes on model comparisons, can rank models with human preferences. However, traditional Arena methods, while established, require an excessive number of comparisons for ranking to converge and are vulnerable to preference noise in voting, suggesting the need for better approaches tailored to contemporary evaluation challenges. In this paper, we introduce K-Sort Arena, an efficient and reliable platform based on a key insight: images and videos possess higher perceptual intuitiveness than texts, enabling rapid evaluation of multiple samples simultaneously. Consequently, K-Sort Arena employs K-wise comparisons, allowing K models to engage in free-for-all competitions, which yield much richer information than pairwise comparisons. To enhance the robustness of the system, we leverage probabilistic modeling and Bayesian updating techniques. We propose an exploration-exploitation-based matchmaking strategy to facilitate more informative comparisons. In our experiments, K-Sort Arena exhibits 16.3x faster convergence compared to the widely used ELO algorithm. To further validate the superiority and obtain a comprehensive leaderboard, we collect human feedback via crowdsourced evaluations of numerous cutting-edge text-to-image and text-to-video models. Thanks to its high efficiency, K-Sort Arena can continuously incorporate emerging models and update the leaderboard with minimal votes. Our project has undergone several months of internal testing and is now available at https://huggingface.co/spaces/ksort/K-Sort-Arena

Summary

AI-Generated Summary

PDF373November 16, 2024