WildBench: Сравнение производительности языковых моделей с помощью сложных задач от реальных пользователей на практике

Аннотация

Мы представляем WildBench, автоматизированную систему оценки, разработанную для сравнения больших языковых моделей (LLM) с использованием сложных запросов реальных пользователей. WildBench состоит из 1 024 задач, тщательно отобранных из более чем миллиона логов человеко-чатботовых разговоров. Для автоматизированной оценки с помощью WildBench мы разработали две метрики, WB-Reward и WB-Score, которые могут быть вычислены с использованием передовых LLM, таких как GPT-4-turbo. Оценка WildBench использует задачно-специфические чеклисты для систематической оценки выходных данных модели и предоставляет структурированные объяснения, обосновывающие оценки и сравнения, что приводит к более надежным и интерпретируемым автоматическим суждениям. WB-Reward использует детализированные попарные сравнения между ответами модели, генерируя пять потенциальных результатов: намного лучше, немного лучше, немного хуже, намного хуже или ничья. В отличие от предыдущих оценок, которые использовали одну базовую модель, мы выбрали три базовые модели с разным уровнем производительности для обеспечения всесторонней попарной оценки. Кроме того, мы предлагаем простой метод уменьшения длинного смещения, преобразуя результаты "немного лучше/хуже" в "ничья", если победивший ответ превышает проигравший на более чем K символов. WB-Score оценивает качество выходных данных модели индивидуально, что делает его быстрой и экономически эффективной метрикой оценки. Результаты WildBench демонстрируют сильную корреляцию с рейтингами Elo, присуждаемыми человеком, из Chatbot Arena по сложным задачам. В частности, WB-Reward достигает коэффициента корреляции Пирсона 0,98 с лучшими моделями. Кроме того, WB-Score достигает 0,95, превосходя как 0,91 ArenaHard, так и 0,89 AlpacaEval2.0 для контролируемых по длине побед, а также 0,87 для обычных побед.

English

We introduce WildBench, an automated evaluation framework designed to benchmark large language models (LLMs) using challenging, real-world user queries. WildBench consists of 1,024 tasks carefully selected from over one million human-chatbot conversation logs. For automated evaluation with WildBench, we have developed two metrics, WB-Reward and WB-Score, which are computable using advanced LLMs such as GPT-4-turbo. WildBench evaluation uses task-specific checklists to evaluate model outputs systematically and provides structured explanations that justify the scores and comparisons, resulting in more reliable and interpretable automatic judgments. WB-Reward employs fine-grained pairwise comparisons between model responses, generating five potential outcomes: much better, slightly better, slightly worse, much worse, or a tie. Unlike previous evaluations that employed a single baseline model, we selected three baseline models at varying performance levels to ensure a comprehensive pairwise evaluation. Additionally, we propose a simple method to mitigate length bias, by converting outcomes of ``slightly better/worse'' to ``tie'' if the winner response exceeds the loser one by more than K characters. WB-Score evaluates the quality of model outputs individually, making it a fast and cost-efficient evaluation metric. WildBench results demonstrate a strong correlation with the human-voted Elo ratings from Chatbot Arena on hard tasks. Specifically, WB-Reward achieves a Pearson correlation of 0.98 with top-ranking models. Additionally, WB-Score reaches 0.95, surpassing both ArenaHard's 0.91 and AlpacaEval2.0's 0.89 for length-controlled win rates, as well as the 0.87 for regular win rates.

WildBench: Сравнение производительности языковых моделей с помощью сложных задач от реальных пользователей на практике

WildBench: Benchmarking LLMs with Challenging Tasks from Real Users in the Wild

Аннотация

Support