WildBench: Het benchmarken van LLM's met uitdagende taken van echte gebruikers in de praktijk
WildBench: Benchmarking LLMs with Challenging Tasks from Real Users in the Wild
June 7, 2024
Auteurs: Bill Yuchen Lin, Yuntian Deng, Khyathi Chandu, Faeze Brahman, Abhilasha Ravichander, Valentina Pyatkin, Nouha Dziri, Ronan Le Bras, Yejin Choi
cs.AI
Samenvatting
We introduceren WildBench, een geautomatiseerd evaluatieraamwerk ontworpen om grote taalmodellen (LLMs) te benchmarken aan de hand van uitdagende, real-world gebruikersvragen. WildBench bestaat uit 1.024 taken die zorgvuldig zijn geselecteerd uit meer dan een miljoen mens-chatbot gesprekslogs. Voor geautomatiseerde evaluatie met WildBench hebben we twee metrieken ontwikkeld, WB-Reward en WB-Score, die berekenbaar zijn met geavanceerde LLMs zoals GPT-4-turbo. De evaluatie met WildBench maakt gebruik van taakspecifieke checklists om modeloutputs systematisch te evalueren en biedt gestructureerde uitleg die de scores en vergelijkingen rechtvaardigen, wat resulteert in betrouwbaardere en interpreteerbare automatische beoordelingen. WB-Reward maakt gebruik van fijnmazige paarsgewijze vergelijkingen tussen modelresponses, waarbij vijf mogelijke uitkomsten worden gegenereerd: veel beter, iets beter, iets slechter, veel slechter, of een gelijkspel. In tegenstelling tot eerdere evaluaties die een enkel basismodel gebruikten, hebben we drie basismodellen geselecteerd op verschillende prestatieniveaus om een uitgebreide paarsgewijze evaluatie te garanderen. Daarnaast stellen we een eenvoudige methode voor om lengtebias te verminderen, door uitkomsten van "iets beter/slechter" om te zetten in "gelijkspel" als de winnende response de verliezende response met meer dan K tekens overschrijdt. WB-Score evalueert de kwaliteit van modeloutputs individueel, waardoor het een snelle en kostenefficiënte evaluatiemetriek is. De resultaten van WildBench tonen een sterke correlatie met de door mensen gestemde Elo-ratings van Chatbot Arena op moeilijke taken. Specifiek behaalt WB-Reward een Pearson-correlatie van 0.98 met de hoogst gerangschikte modellen. Daarnaast bereikt WB-Score 0.95, wat zowel de 0.91 van ArenaHard als de 0.89 van AlpacaEval2.0 voor lengte-gecontroleerde winrates overtreft, evenals de 0.87 voor reguliere winrates.
English
We introduce WildBench, an automated evaluation framework designed to
benchmark large language models (LLMs) using challenging, real-world user
queries. WildBench consists of 1,024 tasks carefully selected from over one
million human-chatbot conversation logs. For automated evaluation with
WildBench, we have developed two metrics, WB-Reward and WB-Score, which are
computable using advanced LLMs such as GPT-4-turbo. WildBench evaluation uses
task-specific checklists to evaluate model outputs systematically and provides
structured explanations that justify the scores and comparisons, resulting in
more reliable and interpretable automatic judgments. WB-Reward employs
fine-grained pairwise comparisons between model responses, generating five
potential outcomes: much better, slightly better, slightly worse, much worse,
or a tie. Unlike previous evaluations that employed a single baseline model, we
selected three baseline models at varying performance levels to ensure a
comprehensive pairwise evaluation. Additionally, we propose a simple method to
mitigate length bias, by converting outcomes of ``slightly better/worse'' to
``tie'' if the winner response exceeds the loser one by more than K
characters. WB-Score evaluates the quality of model outputs individually,
making it a fast and cost-efficient evaluation metric. WildBench results
demonstrate a strong correlation with the human-voted Elo ratings from Chatbot
Arena on hard tasks. Specifically, WB-Reward achieves a Pearson correlation of
0.98 with top-ranking models. Additionally, WB-Score reaches 0.95, surpassing
both ArenaHard's 0.91 and AlpacaEval2.0's 0.89 for length-controlled win rates,
as well as the 0.87 for regular win rates.