WildBench: Avaliando Modelos de Linguagem de Grande Escala com Tarefas Desafiadoras de Usuários Reais no Mundo Real
WildBench: Benchmarking LLMs with Challenging Tasks from Real Users in the Wild
June 7, 2024
Autores: Bill Yuchen Lin, Yuntian Deng, Khyathi Chandu, Faeze Brahman, Abhilasha Ravichander, Valentina Pyatkin, Nouha Dziri, Ronan Le Bras, Yejin Choi
cs.AI
Resumo
Apresentamos o WildBench, um framework de avaliação automatizada projetado para avaliar modelos de linguagem de grande escala (LLMs) utilizando consultas de usuários desafiadoras e do mundo real. O WildBench consiste em 1.024 tarefas cuidadosamente selecionadas de mais de um milhão de logs de conversas entre humanos e chatbots. Para a avaliação automatizada com o WildBench, desenvolvemos duas métricas, WB-Reward e WB-Score, que são calculáveis usando LLMs avançados, como o GPT-4-turbo. A avaliação do WildBench utiliza listas de verificação específicas para cada tarefa para avaliar sistematicamente as saídas dos modelos e fornece explicações estruturadas que justificam as pontuações e comparações, resultando em julgamentos automáticos mais confiáveis e interpretáveis. O WB-Reward emprega comparações pareadas detalhadas entre as respostas dos modelos, gerando cinco possíveis resultados: muito melhor, ligeiramente melhor, ligeiramente pior, muito pior ou empate. Diferente de avaliações anteriores que usavam um único modelo de referência, selecionamos três modelos de referência em diferentes níveis de desempenho para garantir uma avaliação pareada abrangente. Além disso, propomos um método simples para mitigar o viés de comprimento, convertendo os resultados de "ligeiramente melhor/pior" para "empate" se a resposta vencedora exceder a perdedora em mais de K caracteres. O WB-Score avalia a qualidade das saídas dos modelos individualmente, tornando-o uma métrica de avaliação rápida e econômica. Os resultados do WildBench demonstram uma forte correlação com as avaliações Elo votadas por humanos do Chatbot Arena em tarefas difíceis. Especificamente, o WB-Reward alcança uma correlação de Pearson de 0,98 com os modelos de maior classificação. Além disso, o WB-Score atinge 0,95, superando tanto o 0,91 do ArenaHard quanto o 0,89 do AlpacaEval2.0 para taxas de vitória controladas por comprimento, bem como o 0,87 para taxas de vitória regulares.
English
We introduce WildBench, an automated evaluation framework designed to
benchmark large language models (LLMs) using challenging, real-world user
queries. WildBench consists of 1,024 tasks carefully selected from over one
million human-chatbot conversation logs. For automated evaluation with
WildBench, we have developed two metrics, WB-Reward and WB-Score, which are
computable using advanced LLMs such as GPT-4-turbo. WildBench evaluation uses
task-specific checklists to evaluate model outputs systematically and provides
structured explanations that justify the scores and comparisons, resulting in
more reliable and interpretable automatic judgments. WB-Reward employs
fine-grained pairwise comparisons between model responses, generating five
potential outcomes: much better, slightly better, slightly worse, much worse,
or a tie. Unlike previous evaluations that employed a single baseline model, we
selected three baseline models at varying performance levels to ensure a
comprehensive pairwise evaluation. Additionally, we propose a simple method to
mitigate length bias, by converting outcomes of ``slightly better/worse'' to
``tie'' if the winner response exceeds the loser one by more than K
characters. WB-Score evaluates the quality of model outputs individually,
making it a fast and cost-efficient evaluation metric. WildBench results
demonstrate a strong correlation with the human-voted Elo ratings from Chatbot
Arena on hard tasks. Specifically, WB-Reward achieves a Pearson correlation of
0.98 with top-ranking models. Additionally, WB-Score reaches 0.95, surpassing
both ArenaHard's 0.91 and AlpacaEval2.0's 0.89 for length-controlled win rates,
as well as the 0.87 for regular win rates.