WildBench: Сравнение производительности языковых моделей с помощью сложных задач от реальных пользователей на практике
WildBench: Benchmarking LLMs with Challenging Tasks from Real Users in the Wild
June 7, 2024
Авторы: Bill Yuchen Lin, Yuntian Deng, Khyathi Chandu, Faeze Brahman, Abhilasha Ravichander, Valentina Pyatkin, Nouha Dziri, Ronan Le Bras, Yejin Choi
cs.AI
Аннотация
Мы представляем WildBench, автоматизированную систему оценки, разработанную для сравнения больших языковых моделей (LLM) с использованием сложных запросов реальных пользователей. WildBench состоит из 1 024 задач, тщательно отобранных из более чем миллиона логов человеко-чатботовых разговоров. Для автоматизированной оценки с помощью WildBench мы разработали две метрики, WB-Reward и WB-Score, которые могут быть вычислены с использованием передовых LLM, таких как GPT-4-turbo. Оценка WildBench использует задачно-специфические чеклисты для систематической оценки выходных данных модели и предоставляет структурированные объяснения, обосновывающие оценки и сравнения, что приводит к более надежным и интерпретируемым автоматическим суждениям. WB-Reward использует детализированные попарные сравнения между ответами модели, генерируя пять потенциальных результатов: намного лучше, немного лучше, немного хуже, намного хуже или ничья. В отличие от предыдущих оценок, которые использовали одну базовую модель, мы выбрали три базовые модели с разным уровнем производительности для обеспечения всесторонней попарной оценки. Кроме того, мы предлагаем простой метод уменьшения длинного смещения, преобразуя результаты "немного лучше/хуже" в "ничья", если победивший ответ превышает проигравший на более чем K символов. WB-Score оценивает качество выходных данных модели индивидуально, что делает его быстрой и экономически эффективной метрикой оценки. Результаты WildBench демонстрируют сильную корреляцию с рейтингами Elo, присуждаемыми человеком, из Chatbot Arena по сложным задачам. В частности, WB-Reward достигает коэффициента корреляции Пирсона 0,98 с лучшими моделями. Кроме того, WB-Score достигает 0,95, превосходя как 0,91 ArenaHard, так и 0,89 AlpacaEval2.0 для контролируемых по длине побед, а также 0,87 для обычных побед.
English
We introduce WildBench, an automated evaluation framework designed to
benchmark large language models (LLMs) using challenging, real-world user
queries. WildBench consists of 1,024 tasks carefully selected from over one
million human-chatbot conversation logs. For automated evaluation with
WildBench, we have developed two metrics, WB-Reward and WB-Score, which are
computable using advanced LLMs such as GPT-4-turbo. WildBench evaluation uses
task-specific checklists to evaluate model outputs systematically and provides
structured explanations that justify the scores and comparisons, resulting in
more reliable and interpretable automatic judgments. WB-Reward employs
fine-grained pairwise comparisons between model responses, generating five
potential outcomes: much better, slightly better, slightly worse, much worse,
or a tie. Unlike previous evaluations that employed a single baseline model, we
selected three baseline models at varying performance levels to ensure a
comprehensive pairwise evaluation. Additionally, we propose a simple method to
mitigate length bias, by converting outcomes of ``slightly better/worse'' to
``tie'' if the winner response exceeds the loser one by more than K
characters. WB-Score evaluates the quality of model outputs individually,
making it a fast and cost-efficient evaluation metric. WildBench results
demonstrate a strong correlation with the human-voted Elo ratings from Chatbot
Arena on hard tasks. Specifically, WB-Reward achieves a Pearson correlation of
0.98 with top-ranking models. Additionally, WB-Score reaches 0.95, surpassing
both ArenaHard's 0.91 and AlpacaEval2.0's 0.89 for length-controlled win rates,
as well as the 0.87 for regular win rates.Summary
AI-Generated Summary