ChatPaper.aiChatPaper

Prompt-to-Classement

Prompt-to-Leaderboard

February 20, 2025
Auteurs: Evan Frick, Connor Chen, Joseph Tennyson, Tianle Li, Wei-Lin Chiang, Anastasios N. Angelopoulos, Ion Stoica
cs.AI

Résumé

Les évaluations des grands modèles de langage (LLM) reposent généralement sur des métriques agrégées comme la précision ou les préférences humaines, en faisant la moyenne sur les utilisateurs et les prompts. Cette moyenne masque les variations spécifiques aux utilisateurs et aux prompts dans la performance du modèle. Pour résoudre ce problème, nous proposons Prompt-to-Leaderboard (P2L), une méthode qui génère des classements spécifiques à un prompt. L'idée centrale est d'entraîner un LLM prenant des prompts en langage naturel en entrée pour produire un vecteur de coefficients de Bradley-Terry, qui sont ensuite utilisés pour prédire le vote de préférence humaine. Les classements dépendants des prompts qui en résultent permettent une évaluation non supervisée spécifique à la tâche, un routage optimal des requêtes vers les modèles, une personnalisation et une évaluation automatisée des forces et faiblesses des modèles. Les données de Chatbot Arena suggèrent que P2L capture mieux les nuances du paysage de performance des modèles de langage que le classement moyen. De plus, nos résultats indiquent que la capacité de P2L à produire des évaluations spécifiques aux prompts suit une loi de puissance similaire à celle observée dans les LLM eux-mêmes. En janvier 2025, le routeur que nous avons entraîné sur la base de cette méthodologie a atteint la première place du classement de Chatbot Arena. Notre code est disponible à ce lien GitHub : https://github/lmarena/p2l.
English
Large language model (LLM) evaluations typically rely on aggregated metrics like accuracy or human preference, averaging across users and prompts. This averaging obscures user- and prompt-specific variations in model performance. To address this, we propose Prompt-to-Leaderboard (P2L), a method that produces leaderboards specific to a prompt. The core idea is to train an LLM taking natural language prompts as input to output a vector of Bradley-Terry coefficients which are then used to predict the human preference vote. The resulting prompt-dependent leaderboards allow for unsupervised task-specific evaluation, optimal routing of queries to models, personalization, and automated evaluation of model strengths and weaknesses. Data from Chatbot Arena suggest that P2L better captures the nuanced landscape of language model performance than the averaged leaderboard. Furthermore, our findings suggest that P2L's ability to produce prompt-specific evaluations follows a power law scaling similar to that observed in LLMs themselves. In January 2025, the router we trained based on this methodology achieved the \#1 spot in the Chatbot Arena leaderboard. Our code is available at this GitHub link: https://github.com/lmarena/p2l.

Summary

AI-Generated Summary

PDF73February 26, 2025