K-Sort Arena: Evaluación Eficiente y Confiable para Modelos Generativos a través de Preferencias Humanas K-sabias
K-Sort Arena: Efficient and Reliable Benchmarking for Generative Models via K-wise Human Preferences
August 26, 2024
Autores: Zhikai Li, Xuewen Liu, Dongrong Fu, Jianquan Li, Qingyi Gu, Kurt Keutzer, Zhen Dong
cs.AI
Resumen
El rápido avance de los modelos generativos visuales requiere métodos de evaluación eficientes y confiables. La plataforma Arena, que recopila votos de usuarios en comparaciones de modelos, puede clasificar los modelos según las preferencias humanas. Sin embargo, los métodos tradicionales de Arena, aunque establecidos, requieren un número excesivo de comparaciones para que la clasificación converja y son vulnerables al ruido de preferencias en las votaciones, lo que sugiere la necesidad de enfoques mejores adaptados a los desafíos de evaluación contemporáneos. En este documento, presentamos K-Sort Arena, una plataforma eficiente y confiable basada en una idea clave: las imágenes y videos poseen una intuición perceptual más alta que los textos, lo que permite una evaluación rápida de múltiples muestras simultáneamente. En consecuencia, K-Sort Arena emplea comparaciones de K-elementos, permitiendo que K modelos participen en competencias de todos contra todos, lo que proporciona información mucho más rica que las comparaciones de a pares. Para mejorar la robustez del sistema, aprovechamos modelado probabilístico y técnicas de actualización bayesiana. Proponemos una estrategia de emparejamiento basada en exploración-explotación para facilitar comparaciones más informativas. En nuestros experimentos, K-Sort Arena muestra una convergencia 16.3 veces más rápida en comparación con el algoritmo ELO ampliamente utilizado. Para validar aún más la superioridad y obtener una tabla de clasificación integral, recopilamos comentarios humanos a través de evaluaciones crowdsourced de numerosos modelos de texto a imagen y texto a video de vanguardia. Gracias a su alta eficiencia, K-Sort Arena puede incorporar continuamente modelos emergentes y actualizar la tabla de clasificación con un mínimo de votos. Nuestro proyecto ha pasado por varios meses de pruebas internas y ahora está disponible en https://huggingface.co/spaces/ksort/K-Sort-Arena.
English
The rapid advancement of visual generative models necessitates efficient and
reliable evaluation methods. Arena platform, which gathers user votes on model
comparisons, can rank models with human preferences. However, traditional Arena
methods, while established, require an excessive number of comparisons for
ranking to converge and are vulnerable to preference noise in voting,
suggesting the need for better approaches tailored to contemporary evaluation
challenges. In this paper, we introduce K-Sort Arena, an efficient and reliable
platform based on a key insight: images and videos possess higher perceptual
intuitiveness than texts, enabling rapid evaluation of multiple samples
simultaneously. Consequently, K-Sort Arena employs K-wise comparisons, allowing
K models to engage in free-for-all competitions, which yield much richer
information than pairwise comparisons. To enhance the robustness of the system,
we leverage probabilistic modeling and Bayesian updating techniques. We propose
an exploration-exploitation-based matchmaking strategy to facilitate more
informative comparisons. In our experiments, K-Sort Arena exhibits 16.3x faster
convergence compared to the widely used ELO algorithm. To further validate the
superiority and obtain a comprehensive leaderboard, we collect human feedback
via crowdsourced evaluations of numerous cutting-edge text-to-image and
text-to-video models. Thanks to its high efficiency, K-Sort Arena can
continuously incorporate emerging models and update the leaderboard with
minimal votes. Our project has undergone several months of internal testing and
is now available at https://huggingface.co/spaces/ksort/K-Sort-Arena