ChatPaper.aiChatPaper

Des données crowdsourcées aux benchmarks de haute qualité : Arena-Hard et le pipeline BenchBuilder

From Crowdsourced Data to High-Quality Benchmarks: Arena-Hard and BenchBuilder Pipeline

June 17, 2024
Auteurs: Tianle Li, Wei-Lin Chiang, Evan Frick, Lisa Dunlap, Tianhao Wu, Banghua Zhu, Joseph E. Gonzalez, Ion Stoica
cs.AI

Résumé

L'évolution rapide des modèles de langage a nécessité le développement de benchmarks plus exigeants. Les benchmarks statiques actuels peinent souvent à distinguer de manière cohérente les capacités des différents modèles et ne parviennent pas à s'aligner sur les préférences des utilisateurs dans le monde réel. D'un autre côté, les plateformes collaboratives en temps réel, comme le Chatbot Arena, collectent une large gamme de prompts naturels et de retours utilisateurs. Cependant, ces prompts varient en sophistication et les retours ne peuvent pas être appliqués hors ligne à de nouveaux modèles. Afin de garantir que les benchmarks suivent le rythme du développement des LLM, nous abordons la manière d'évaluer les benchmarks sur leur capacité à séparer de manière fiable les modèles et leur alignement avec les préférences humaines. Sous ces principes, nous avons développé BenchBuilder, un benchmark vivant qui filtre les prompts de haute qualité à partir de sources de données en temps réel pour permettre une évaluation hors ligne sur des prompts frais et exigeants. BenchBuilder identifie sept indicateurs d'un prompt de haute qualité, tels que la nécessité de connaissances spécifiques à un domaine, et utilise un annotateur LLM pour sélectionner un sous-ensemble de prompts de haute qualité provenant de divers clusters thématiques. Le processus d'évaluation par LLM emploie un juge LLM pour assurer un benchmark entièrement automatisé, de haute qualité et constamment mis à jour. Nous appliquons BenchBuilder sur les prompts du Chatbot Arena pour créer Arena-Hard-Auto v0.1 : 500 prompts utilisateurs exigeants couvrant une large gamme de tâches. Arena-Hard-Auto v0.1 offre des intervalles de confiance 3 fois plus serrés que MT-Bench et atteint un accord de pointe de 89,1 % avec les classements de préférence humaine, le tout pour un coût de seulement 25 $ et sans recours à des annotateurs humains. Le pipeline BenchBuilder améliore les benchmarks d'évaluation et fournit un outil précieux pour les développeurs, leur permettant d'extraire des benchmarks de haute qualité à partir de vastes ensembles de données avec un effort minimal.
English
The rapid evolution of language models has necessitated the development of more challenging benchmarks. Current static benchmarks often struggle to consistently distinguish between the capabilities of different models and fail to align with real-world user preferences. On the other hand, live crowd-sourced platforms like the Chatbot Arena collect a wide range of natural prompts and user feedback. However, these prompts vary in sophistication and the feedback cannot be applied offline to new models. In order to ensure that benchmarks keep up with the pace of LLM development, we address how one can evaluate benchmarks on their ability to confidently separate models and their alignment with human preference. Under these principles, we developed BenchBuilder, a living benchmark that filters high-quality prompts from live data sources to enable offline evaluation on fresh, challenging prompts. BenchBuilder identifies seven indicators of a high-quality prompt, such as the requirement for domain knowledge, and utilizes an LLM annotator to select a high-quality subset of prompts from various topic clusters. The LLM evaluation process employs an LLM judge to ensure a fully automated, high-quality, and constantly updating benchmark. We apply BenchBuilder on prompts from the Chatbot Arena to create Arena-Hard-Auto v0.1: 500 challenging user prompts from a wide range of tasks. Arena-Hard-Auto v0.1 offers 3x tighter confidence intervals than MT-Bench and achieves a state-of-the-art 89.1% agreement with human preference rankings, all at a cost of only $25 and without human labelers. The BenchBuilder pipeline enhances evaluation benchmarks and provides a valuable tool for developers, enabling them to extract high-quality benchmarks from extensive data with minimal effort.

Summary

AI-Generated Summary

PDF71December 4, 2024