WildBench: Evaluando Modelos de Lenguaje con Tareas Desafiantes de Usuarios Reales en Entornos Naturales

Resumen

Presentamos WildBench, un marco de evaluación automatizado diseñado para evaluar modelos de lenguaje de gran escala (LLMs) utilizando consultas de usuarios desafiantes y del mundo real. WildBench consta de 1,024 tareas cuidadosamente seleccionadas de más de un millón de registros de conversaciones entre humanos y chatbots. Para la evaluación automatizada con WildBench, hemos desarrollado dos métricas, WB-Reward y WB-Score, que son calculables utilizando LLMs avanzados como GPT-4-turbo. La evaluación con WildBench utiliza listas de verificación específicas para cada tarea para evaluar sistemáticamente las salidas de los modelos y proporciona explicaciones estructuradas que justifican las puntuaciones y comparaciones, lo que resulta en juicios automáticos más confiables e interpretables. WB-Reward emplea comparaciones detalladas por pares entre las respuestas de los modelos, generando cinco resultados potenciales: mucho mejor, ligeramente mejor, ligeramente peor, mucho peor o un empate. A diferencia de evaluaciones anteriores que utilizaban un único modelo de referencia, seleccionamos tres modelos de referencia con diferentes niveles de rendimiento para garantizar una evaluación por pares exhaustiva. Además, proponemos un método simple para mitigar el sesgo de longitud, convirtiendo los resultados de "ligeramente mejor/peor" en "empate" si la respuesta ganadora supera a la perdedora en más de K caracteres. WB-Score evalúa la calidad de las salidas de los modelos de manera individual, lo que lo convierte en una métrica de evaluación rápida y rentable. Los resultados de WildBench demuestran una fuerte correlación con las calificaciones Elo votadas por humanos de Chatbot Arena en tareas difíciles. Específicamente, WB-Reward alcanza una correlación de Pearson de 0.98 con los modelos mejor clasificados. Además, WB-Score alcanza 0.95, superando tanto el 0.91 de ArenaHard como el 0.89 de AlpacaEval2.0 para tasas de victoria controladas por longitud, así como el 0.87 para tasas de victoria regulares.

English

We introduce WildBench, an automated evaluation framework designed to benchmark large language models (LLMs) using challenging, real-world user queries. WildBench consists of 1,024 tasks carefully selected from over one million human-chatbot conversation logs. For automated evaluation with WildBench, we have developed two metrics, WB-Reward and WB-Score, which are computable using advanced LLMs such as GPT-4-turbo. WildBench evaluation uses task-specific checklists to evaluate model outputs systematically and provides structured explanations that justify the scores and comparisons, resulting in more reliable and interpretable automatic judgments. WB-Reward employs fine-grained pairwise comparisons between model responses, generating five potential outcomes: much better, slightly better, slightly worse, much worse, or a tie. Unlike previous evaluations that employed a single baseline model, we selected three baseline models at varying performance levels to ensure a comprehensive pairwise evaluation. Additionally, we propose a simple method to mitigate length bias, by converting outcomes of ``slightly better/worse'' to ``tie'' if the winner response exceeds the loser one by more than K characters. WB-Score evaluates the quality of model outputs individually, making it a fast and cost-efficient evaluation metric. WildBench results demonstrate a strong correlation with the human-voted Elo ratings from Chatbot Arena on hard tasks. Specifically, WB-Reward achieves a Pearson correlation of 0.98 with top-ranking models. Additionally, WB-Score reaches 0.95, surpassing both ArenaHard's 0.91 and AlpacaEval2.0's 0.89 for length-controlled win rates, as well as the 0.87 for regular win rates.

WildBench: Evaluando Modelos de Lenguaje con Tareas Desafiantes de Usuarios Reales en Entornos Naturales

WildBench: Benchmarking LLMs with Challenging Tasks from Real Users in the Wild

Resumen

Support