K-Sort Arena: Evaluación Eficiente y Confiable para Modelos Generativos a través de Preferencias Humanas K-sabias

K-Sort Arena: Efficient and Reliable Benchmarking for Generative Models via K-wise Human Preferences

August 26, 2024
Autores: Zhikai Li, Xuewen Liu, Dongrong Fu, Jianquan Li, Qingyi Gu, Kurt Keutzer, Zhen Dong
cs.AI

Resumen

El rápido avance de los modelos generativos visuales requiere métodos de evaluación eficientes y confiables. La plataforma Arena, que recopila votos de usuarios en comparaciones de modelos, puede clasificar los modelos según las preferencias humanas. Sin embargo, los métodos tradicionales de Arena, aunque establecidos, requieren un número excesivo de comparaciones para que la clasificación converja y son vulnerables al ruido de preferencias en las votaciones, lo que sugiere la necesidad de enfoques mejores adaptados a los desafíos de evaluación contemporáneos. En este documento, presentamos K-Sort Arena, una plataforma eficiente y confiable basada en una idea clave: las imágenes y videos poseen una intuición perceptual más alta que los textos, lo que permite una evaluación rápida de múltiples muestras simultáneamente. En consecuencia, K-Sort Arena emplea comparaciones de K-elementos, permitiendo que K modelos participen en competencias de todos contra todos, lo que proporciona información mucho más rica que las comparaciones de a pares. Para mejorar la robustez del sistema, aprovechamos modelado probabilístico y técnicas de actualización bayesiana. Proponemos una estrategia de emparejamiento basada en exploración-explotación para facilitar comparaciones más informativas. En nuestros experimentos, K-Sort Arena muestra una convergencia 16.3 veces más rápida en comparación con el algoritmo ELO ampliamente utilizado. Para validar aún más la superioridad y obtener una tabla de clasificación integral, recopilamos comentarios humanos a través de evaluaciones crowdsourced de numerosos modelos de texto a imagen y texto a video de vanguardia. Gracias a su alta eficiencia, K-Sort Arena puede incorporar continuamente modelos emergentes y actualizar la tabla de clasificación con un mínimo de votos. Nuestro proyecto ha pasado por varios meses de pruebas internas y ahora está disponible en https://huggingface.co/spaces/ksort/K-Sort-Arena.
English
The rapid advancement of visual generative models necessitates efficient and reliable evaluation methods. Arena platform, which gathers user votes on model comparisons, can rank models with human preferences. However, traditional Arena methods, while established, require an excessive number of comparisons for ranking to converge and are vulnerable to preference noise in voting, suggesting the need for better approaches tailored to contemporary evaluation challenges. In this paper, we introduce K-Sort Arena, an efficient and reliable platform based on a key insight: images and videos possess higher perceptual intuitiveness than texts, enabling rapid evaluation of multiple samples simultaneously. Consequently, K-Sort Arena employs K-wise comparisons, allowing K models to engage in free-for-all competitions, which yield much richer information than pairwise comparisons. To enhance the robustness of the system, we leverage probabilistic modeling and Bayesian updating techniques. We propose an exploration-exploitation-based matchmaking strategy to facilitate more informative comparisons. In our experiments, K-Sort Arena exhibits 16.3x faster convergence compared to the widely used ELO algorithm. To further validate the superiority and obtain a comprehensive leaderboard, we collect human feedback via crowdsourced evaluations of numerous cutting-edge text-to-image and text-to-video models. Thanks to its high efficiency, K-Sort Arena can continuously incorporate emerging models and update the leaderboard with minimal votes. Our project has undergone several months of internal testing and is now available at https://huggingface.co/spaces/ksort/K-Sort-Arena
PDF393November 16, 2024