ChatPaper.aiChatPaper

Prompt-to-Leaderboard

Prompt-to-Leaderboard

February 20, 2025
Autori: Evan Frick, Connor Chen, Joseph Tennyson, Tianle Li, Wei-Lin Chiang, Anastasios N. Angelopoulos, Ion Stoica
cs.AI

Abstract

Le valutazioni dei grandi modelli linguistici (LLM) di solito si basano su metriche aggregate come accuratezza o preferenza umana, facendo una media tra utenti e prompt. Questa media oscura le variazioni specifiche degli utenti e dei prompt nelle prestazioni del modello. Per affrontare questo problema, proponiamo Prompt-to-Leaderboard (P2L), un metodo che produce classifiche specifiche per un prompt. L'idea principale è addestrare un LLM che prende prompt in linguaggio naturale in input per produrre un vettore di coefficienti di Bradley-Terry che vengono poi utilizzati per prevedere il voto di preferenza umana. Le classifiche dipendenti dal prompt risultanti consentono una valutazione specifica del compito non supervisionata, un instradamento ottimale delle query ai modelli, la personalizzazione e la valutazione automatizzata dei punti di forza e di debolezza del modello. I dati provenienti da Chatbot Arena suggeriscono che P2L cattura meglio il paesaggio sfumato delle prestazioni del modello linguistico rispetto alla classifica media. Inoltre, le nostre scoperte suggeriscono che la capacità di P2L di produrre valutazioni specifiche del prompt segue una scalabilità di legge di potenza simile a quella osservata negli stessi LLM. Nel gennaio 2025, il router che abbiamo addestrato basandoci su questa metodologia ha raggiunto il primo posto nella classifica di Chatbot Arena. Il nostro codice è disponibile a questo link GitHub: https://github.com/lmarena/p2l.
English
Large language model (LLM) evaluations typically rely on aggregated metrics like accuracy or human preference, averaging across users and prompts. This averaging obscures user- and prompt-specific variations in model performance. To address this, we propose Prompt-to-Leaderboard (P2L), a method that produces leaderboards specific to a prompt. The core idea is to train an LLM taking natural language prompts as input to output a vector of Bradley-Terry coefficients which are then used to predict the human preference vote. The resulting prompt-dependent leaderboards allow for unsupervised task-specific evaluation, optimal routing of queries to models, personalization, and automated evaluation of model strengths and weaknesses. Data from Chatbot Arena suggest that P2L better captures the nuanced landscape of language model performance than the averaged leaderboard. Furthermore, our findings suggest that P2L's ability to produce prompt-specific evaluations follows a power law scaling similar to that observed in LLMs themselves. In January 2025, the router we trained based on this methodology achieved the \#1 spot in the Chatbot Arena leaderboard. Our code is available at this GitHub link: https://github.com/lmarena/p2l.

Summary

AI-Generated Summary

PDF73February 26, 2025