WildBench : Évaluation des LLM sur des tâches complexes issues d'utilisateurs réels en conditions réelles
WildBench: Benchmarking LLMs with Challenging Tasks from Real Users in the Wild
June 7, 2024
Auteurs: Bill Yuchen Lin, Yuntian Deng, Khyathi Chandu, Faeze Brahman, Abhilasha Ravichander, Valentina Pyatkin, Nouha Dziri, Ronan Le Bras, Yejin Choi
cs.AI
Résumé
Nous présentons WildBench, un cadre d'évaluation automatisé conçu pour comparer les grands modèles de langage (LLM) à l'aide de requêtes utilisateurs complexes et réalistes. WildBench comprend 1 024 tâches soigneusement sélectionnées parmi plus d'un million de logs de conversations humain-chatbot. Pour l'évaluation automatisée avec WildBench, nous avons développé deux métriques, WB-Reward et WB-Score, qui peuvent être calculées à l'aide de LLM avancés tels que GPT-4-turbo. L'évaluation WildBench utilise des listes de contrôle spécifiques aux tâches pour évaluer systématiquement les sorties des modèles et fournit des explications structurées justifiant les scores et les comparaisons, ce qui permet d'obtenir des jugements automatiques plus fiables et interprétables. WB-Reward emploie des comparaisons par paires fines entre les réponses des modèles, générant cinq résultats possibles : bien meilleur, légèrement meilleur, légèrement pire, bien pire ou égal. Contrairement aux évaluations précédentes qui utilisaient un seul modèle de référence, nous avons sélectionné trois modèles de référence à différents niveaux de performance pour garantir une évaluation par paires exhaustive. De plus, nous proposons une méthode simple pour atténuer le biais de longueur, en convertissant les résultats de « légèrement meilleur/pire » en « égal » si la réponse gagnante dépasse la réponse perdante de plus de K caractères. WB-Score évalue la qualité des sorties des modèles individuellement, ce qui en fait une métrique d'évaluation rapide et économique. Les résultats de WildBench démontrent une forte corrélation avec les évaluations Elo votées par des humains provenant de Chatbot Arena sur des tâches difficiles. Plus précisément, WB-Reward atteint une corrélation de Pearson de 0,98 avec les modèles les mieux classés. Par ailleurs, WB-Score atteint 0,95, surpassant à la fois les 0,91 d'ArenaHard et les 0,89 d'AlpacaEval2.0 pour les taux de victoire contrôlés par la longueur, ainsi que les 0,87 pour les taux de victoire réguliers.
English
We introduce WildBench, an automated evaluation framework designed to
benchmark large language models (LLMs) using challenging, real-world user
queries. WildBench consists of 1,024 tasks carefully selected from over one
million human-chatbot conversation logs. For automated evaluation with
WildBench, we have developed two metrics, WB-Reward and WB-Score, which are
computable using advanced LLMs such as GPT-4-turbo. WildBench evaluation uses
task-specific checklists to evaluate model outputs systematically and provides
structured explanations that justify the scores and comparisons, resulting in
more reliable and interpretable automatic judgments. WB-Reward employs
fine-grained pairwise comparisons between model responses, generating five
potential outcomes: much better, slightly better, slightly worse, much worse,
or a tie. Unlike previous evaluations that employed a single baseline model, we
selected three baseline models at varying performance levels to ensure a
comprehensive pairwise evaluation. Additionally, we propose a simple method to
mitigate length bias, by converting outcomes of ``slightly better/worse'' to
``tie'' if the winner response exceeds the loser one by more than K
characters. WB-Score evaluates the quality of model outputs individually,
making it a fast and cost-efficient evaluation metric. WildBench results
demonstrate a strong correlation with the human-voted Elo ratings from Chatbot
Arena on hard tasks. Specifically, WB-Reward achieves a Pearson correlation of
0.98 with top-ranking models. Additionally, WB-Score reaches 0.95, surpassing
both ArenaHard's 0.91 and AlpacaEval2.0's 0.89 for length-controlled win rates,
as well as the 0.87 for regular win rates.Summary
AI-Generated Summary