ChatPaper.aiChatPaper

WildBench: Benchmarking von LLMs mit anspruchsvollen Aufgaben von echten Benutzern in freier Wildbahn

WildBench: Benchmarking LLMs with Challenging Tasks from Real Users in the Wild

June 7, 2024
Autoren: Bill Yuchen Lin, Yuntian Deng, Khyathi Chandu, Faeze Brahman, Abhilasha Ravichander, Valentina Pyatkin, Nouha Dziri, Ronan Le Bras, Yejin Choi
cs.AI

Zusammenfassung

Wir stellen WildBench vor, ein automatisiertes Bewertungsframework, das entwickelt wurde, um große Sprachmodelle (LLMs) mithilfe anspruchsvoller, realer Benutzeranfragen zu bewerten. WildBench besteht aus 1.024 sorgfältig aus über einer Million menschlicher Chatbot-Konversationsprotokolle ausgewählten Aufgaben. Für die automatisierte Bewertung mit WildBench haben wir zwei Metriken entwickelt, WB-Reward und WB-Score, die mit fortschrittlichen LLMs wie GPT-4-turbo berechenbar sind. Die WildBench-Bewertung verwendet aufgabenspezifische Checklisten, um Modellausgaben systematisch zu bewerten und strukturierte Erklärungen bereitzustellen, die die Punktzahlen und Vergleiche rechtfertigen, was zu zuverlässigeren und interpretierbaren automatischen Beurteilungen führt. WB-Reward verwendet fein abgestufte paarweise Vergleiche zwischen Modellantworten und erzeugt fünf mögliche Ergebnisse: deutlich besser, leicht besser, leicht schlechter, deutlich schlechter oder ein Unentschieden. Im Gegensatz zu früheren Bewertungen, die ein einzelnes Basislinienmodell verwendeten, haben wir drei Basislinienmodelle mit unterschiedlichen Leistungsniveaus ausgewählt, um eine umfassende paarweise Bewertung sicherzustellen. Darüber hinaus schlagen wir eine einfache Methode vor, um Längenvoreingenommenheit zu mildern, indem Ergebnisse von "leicht besser/schlechter" in "Unentschieden" umgewandelt werden, wenn die Gewinnerantwort die Verliererantwort um mehr als K Zeichen übertrifft. WB-Score bewertet die Qualität der Modellausgaben individuell und macht ihn zu einer schnellen und kostengünstigen Bewertungsmetrik. Die Ergebnisse von WildBench zeigen eine starke Korrelation mit den von Chatbot Arena zu schwierigen Aufgaben abgegebenen Elo-Bewertungen der Benutzer. Speziell erreicht WB-Reward eine Pearson-Korrelation von 0,98 mit den bestplatzierten Modellen. Darüber hinaus erreicht WB-Score 0,95 und übertrifft sowohl ArenaHard mit 0,91 als auch AlpacaEval2.0 mit 0,89 für längenkontrollierte Gewinnraten sowie die 0,87 für reguläre Gewinnraten.
English
We introduce WildBench, an automated evaluation framework designed to benchmark large language models (LLMs) using challenging, real-world user queries. WildBench consists of 1,024 tasks carefully selected from over one million human-chatbot conversation logs. For automated evaluation with WildBench, we have developed two metrics, WB-Reward and WB-Score, which are computable using advanced LLMs such as GPT-4-turbo. WildBench evaluation uses task-specific checklists to evaluate model outputs systematically and provides structured explanations that justify the scores and comparisons, resulting in more reliable and interpretable automatic judgments. WB-Reward employs fine-grained pairwise comparisons between model responses, generating five potential outcomes: much better, slightly better, slightly worse, much worse, or a tie. Unlike previous evaluations that employed a single baseline model, we selected three baseline models at varying performance levels to ensure a comprehensive pairwise evaluation. Additionally, we propose a simple method to mitigate length bias, by converting outcomes of ``slightly better/worse'' to ``tie'' if the winner response exceeds the loser one by more than K characters. WB-Score evaluates the quality of model outputs individually, making it a fast and cost-efficient evaluation metric. WildBench results demonstrate a strong correlation with the human-voted Elo ratings from Chatbot Arena on hard tasks. Specifically, WB-Reward achieves a Pearson correlation of 0.98 with top-ranking models. Additionally, WB-Score reaches 0.95, surpassing both ArenaHard's 0.91 and AlpacaEval2.0's 0.89 for length-controlled win rates, as well as the 0.87 for regular win rates.

Summary

AI-Generated Summary

PDF311December 8, 2024