WildBench: Het benchmarken van LLM's met uitdagende taken van echte gebruikers in de praktijk

Samenvatting

We introduceren WildBench, een geautomatiseerd evaluatieraamwerk ontworpen om grote taalmodellen (LLMs) te benchmarken aan de hand van uitdagende, real-world gebruikersvragen. WildBench bestaat uit 1.024 taken die zorgvuldig zijn geselecteerd uit meer dan een miljoen mens-chatbot gesprekslogs. Voor geautomatiseerde evaluatie met WildBench hebben we twee metrieken ontwikkeld, WB-Reward en WB-Score, die berekenbaar zijn met geavanceerde LLMs zoals GPT-4-turbo. De evaluatie met WildBench maakt gebruik van taakspecifieke checklists om modeloutputs systematisch te evalueren en biedt gestructureerde uitleg die de scores en vergelijkingen rechtvaardigen, wat resulteert in betrouwbaardere en interpreteerbare automatische beoordelingen. WB-Reward maakt gebruik van fijnmazige paarsgewijze vergelijkingen tussen modelresponses, waarbij vijf mogelijke uitkomsten worden gegenereerd: veel beter, iets beter, iets slechter, veel slechter, of een gelijkspel. In tegenstelling tot eerdere evaluaties die een enkel basismodel gebruikten, hebben we drie basismodellen geselecteerd op verschillende prestatieniveaus om een uitgebreide paarsgewijze evaluatie te garanderen. Daarnaast stellen we een eenvoudige methode voor om lengtebias te verminderen, door uitkomsten van "iets beter/slechter" om te zetten in "gelijkspel" als de winnende response de verliezende response met meer dan K tekens overschrijdt. WB-Score evalueert de kwaliteit van modeloutputs individueel, waardoor het een snelle en kostenefficiënte evaluatiemetriek is. De resultaten van WildBench tonen een sterke correlatie met de door mensen gestemde Elo-ratings van Chatbot Arena op moeilijke taken. Specifiek behaalt WB-Reward een Pearson-correlatie van 0.98 met de hoogst gerangschikte modellen. Daarnaast bereikt WB-Score 0.95, wat zowel de 0.91 van ArenaHard als de 0.89 van AlpacaEval2.0 voor lengte-gecontroleerde winrates overtreft, evenals de 0.87 voor reguliere winrates.

English

We introduce WildBench, an automated evaluation framework designed to benchmark large language models (LLMs) using challenging, real-world user queries. WildBench consists of 1,024 tasks carefully selected from over one million human-chatbot conversation logs. For automated evaluation with WildBench, we have developed two metrics, WB-Reward and WB-Score, which are computable using advanced LLMs such as GPT-4-turbo. WildBench evaluation uses task-specific checklists to evaluate model outputs systematically and provides structured explanations that justify the scores and comparisons, resulting in more reliable and interpretable automatic judgments. WB-Reward employs fine-grained pairwise comparisons between model responses, generating five potential outcomes: much better, slightly better, slightly worse, much worse, or a tie. Unlike previous evaluations that employed a single baseline model, we selected three baseline models at varying performance levels to ensure a comprehensive pairwise evaluation. Additionally, we propose a simple method to mitigate length bias, by converting outcomes of ``slightly better/worse'' to ``tie'' if the winner response exceeds the loser one by more than K characters. WB-Score evaluates the quality of model outputs individually, making it a fast and cost-efficient evaluation metric. WildBench results demonstrate a strong correlation with the human-voted Elo ratings from Chatbot Arena on hard tasks. Specifically, WB-Reward achieves a Pearson correlation of 0.98 with top-ranking models. Additionally, WB-Score reaches 0.95, surpassing both ArenaHard's 0.91 and AlpacaEval2.0's 0.89 for length-controlled win rates, as well as the 0.87 for regular win rates.

WildBench: Het benchmarken van LLM's met uitdagende taken van echte gebruikers in de praktijk

WildBench: Benchmarking LLMs with Challenging Tasks from Real Users in the Wild

Samenvatting

Support