WildBench: Valutazione di LLM con Compiti Complessi Provenienti da Utenti Reali nel Mondo Reale
WildBench: Benchmarking LLMs with Challenging Tasks from Real Users in the Wild
June 7, 2024
Autori: Bill Yuchen Lin, Yuntian Deng, Khyathi Chandu, Faeze Brahman, Abhilasha Ravichander, Valentina Pyatkin, Nouha Dziri, Ronan Le Bras, Yejin Choi
cs.AI
Abstract
Presentiamo WildBench, un framework di valutazione automatizzato progettato per misurare le prestazioni di grandi modelli linguistici (LLMs) utilizzando query complesse e realistiche degli utenti. WildBench è composto da 1.024 task selezionati accuratamente da oltre un milione di log di conversazioni tra utenti e chatbot. Per la valutazione automatizzata con WildBench, abbiamo sviluppato due metriche, WB-Reward e WB-Score, calcolabili utilizzando LLM avanzati come GPT-4-turbo. La valutazione di WildBench utilizza checklist specifiche per ogni task per valutare sistematicamente gli output dei modelli e fornisce spiegazioni strutturate che giustificano i punteggi e i confronti, garantendo giudizi automatici più affidabili e interpretabili. WB-Reward impiega confronti a coppie dettagliati tra le risposte dei modelli, generando cinque possibili esiti: molto migliore, leggermente migliore, leggermente peggiore, molto peggiore o pari. A differenza delle valutazioni precedenti che utilizzavano un unico modello di riferimento, abbiamo selezionato tre modelli di riferimento con livelli di prestazione variabili per garantire un confronto a coppie più completo. Inoltre, proponiamo un metodo semplice per mitigare il bias della lunghezza, convertendo gli esiti di "leggermente migliore/peggiore" in "pari" se la risposta vincente supera quella perdente di più di K caratteri. WB-Score valuta la qualità degli output dei modelli individualmente, rendendolo una metrica di valutazione rapida ed efficiente in termini di costi. I risultati di WildBench dimostrano una forte correlazione con le valutazioni Elo votate dagli utenti su Chatbot Arena per task difficili. In particolare, WB-Reward raggiunge una correlazione di Pearson di 0,98 con i modelli di punta. Inoltre, WB-Score raggiunge 0,95, superando sia lo 0,91 di ArenaHard che lo 0,89 di AlpacaEval2.0 per i tassi di vittoria controllati per lunghezza, nonché lo 0,87 per i tassi di vittoria regolari.
English
We introduce WildBench, an automated evaluation framework designed to
benchmark large language models (LLMs) using challenging, real-world user
queries. WildBench consists of 1,024 tasks carefully selected from over one
million human-chatbot conversation logs. For automated evaluation with
WildBench, we have developed two metrics, WB-Reward and WB-Score, which are
computable using advanced LLMs such as GPT-4-turbo. WildBench evaluation uses
task-specific checklists to evaluate model outputs systematically and provides
structured explanations that justify the scores and comparisons, resulting in
more reliable and interpretable automatic judgments. WB-Reward employs
fine-grained pairwise comparisons between model responses, generating five
potential outcomes: much better, slightly better, slightly worse, much worse,
or a tie. Unlike previous evaluations that employed a single baseline model, we
selected three baseline models at varying performance levels to ensure a
comprehensive pairwise evaluation. Additionally, we propose a simple method to
mitigate length bias, by converting outcomes of ``slightly better/worse'' to
``tie'' if the winner response exceeds the loser one by more than K
characters. WB-Score evaluates the quality of model outputs individually,
making it a fast and cost-efficient evaluation metric. WildBench results
demonstrate a strong correlation with the human-voted Elo ratings from Chatbot
Arena on hard tasks. Specifically, WB-Reward achieves a Pearson correlation of
0.98 with top-ranking models. Additionally, WB-Score reaches 0.95, surpassing
both ArenaHard's 0.91 and AlpacaEval2.0's 0.89 for length-controlled win rates,
as well as the 0.87 for regular win rates.