WildBench: Evaluando Modelos de Lenguaje con Tareas Desafiantes de Usuarios Reales en Entornos Naturales
WildBench: Benchmarking LLMs with Challenging Tasks from Real Users in the Wild
June 7, 2024
Autores: Bill Yuchen Lin, Yuntian Deng, Khyathi Chandu, Faeze Brahman, Abhilasha Ravichander, Valentina Pyatkin, Nouha Dziri, Ronan Le Bras, Yejin Choi
cs.AI
Resumen
Presentamos WildBench, un marco de evaluación automatizado diseñado para evaluar modelos de lenguaje de gran escala (LLMs) utilizando consultas de usuarios desafiantes y del mundo real. WildBench consta de 1,024 tareas cuidadosamente seleccionadas de más de un millón de registros de conversaciones entre humanos y chatbots. Para la evaluación automatizada con WildBench, hemos desarrollado dos métricas, WB-Reward y WB-Score, que son calculables utilizando LLMs avanzados como GPT-4-turbo. La evaluación con WildBench utiliza listas de verificación específicas para cada tarea para evaluar sistemáticamente las salidas de los modelos y proporciona explicaciones estructuradas que justifican las puntuaciones y comparaciones, lo que resulta en juicios automáticos más confiables e interpretables. WB-Reward emplea comparaciones detalladas por pares entre las respuestas de los modelos, generando cinco resultados potenciales: mucho mejor, ligeramente mejor, ligeramente peor, mucho peor o un empate. A diferencia de evaluaciones anteriores que utilizaban un único modelo de referencia, seleccionamos tres modelos de referencia con diferentes niveles de rendimiento para garantizar una evaluación por pares exhaustiva. Además, proponemos un método simple para mitigar el sesgo de longitud, convirtiendo los resultados de "ligeramente mejor/peor" en "empate" si la respuesta ganadora supera a la perdedora en más de K caracteres. WB-Score evalúa la calidad de las salidas de los modelos de manera individual, lo que lo convierte en una métrica de evaluación rápida y rentable. Los resultados de WildBench demuestran una fuerte correlación con las calificaciones Elo votadas por humanos de Chatbot Arena en tareas difíciles. Específicamente, WB-Reward alcanza una correlación de Pearson de 0.98 con los modelos mejor clasificados. Además, WB-Score alcanza 0.95, superando tanto el 0.91 de ArenaHard como el 0.89 de AlpacaEval2.0 para tasas de victoria controladas por longitud, así como el 0.87 para tasas de victoria regulares.
English
We introduce WildBench, an automated evaluation framework designed to
benchmark large language models (LLMs) using challenging, real-world user
queries. WildBench consists of 1,024 tasks carefully selected from over one
million human-chatbot conversation logs. For automated evaluation with
WildBench, we have developed two metrics, WB-Reward and WB-Score, which are
computable using advanced LLMs such as GPT-4-turbo. WildBench evaluation uses
task-specific checklists to evaluate model outputs systematically and provides
structured explanations that justify the scores and comparisons, resulting in
more reliable and interpretable automatic judgments. WB-Reward employs
fine-grained pairwise comparisons between model responses, generating five
potential outcomes: much better, slightly better, slightly worse, much worse,
or a tie. Unlike previous evaluations that employed a single baseline model, we
selected three baseline models at varying performance levels to ensure a
comprehensive pairwise evaluation. Additionally, we propose a simple method to
mitigate length bias, by converting outcomes of ``slightly better/worse'' to
``tie'' if the winner response exceeds the loser one by more than K
characters. WB-Score evaluates the quality of model outputs individually,
making it a fast and cost-efficient evaluation metric. WildBench results
demonstrate a strong correlation with the human-voted Elo ratings from Chatbot
Arena on hard tasks. Specifically, WB-Reward achieves a Pearson correlation of
0.98 with top-ranking models. Additionally, WB-Score reaches 0.95, surpassing
both ArenaHard's 0.91 and AlpacaEval2.0's 0.89 for length-controlled win rates,
as well as the 0.87 for regular win rates.Summary
AI-Generated Summary