ChatPaper.aiChatPaper

Cost-of-Pass: Un Framework Economico per la Valutazione dei Modelli Linguistici

Cost-of-Pass: An Economic Framework for Evaluating Language Models

April 17, 2025
Autori: Mehmet Hamza Erol, Batu El, Mirac Suzgun, Mert Yuksekgonul, James Zou
cs.AI

Abstract

L'adozione diffusa dei sistemi di intelligenza artificiale nell'economia dipende dalla loro capacità di generare valore economico che superi i costi di inferenza. Valutare questo compromesso richiede metriche che tengano conto sia delle prestazioni che dei costi. Proponiamo un framework basato sulla teoria della produzione per valutare i modelli linguistici combinando accuratezza e costo di inferenza. Introduciamo il concetto di "costo-per-passaggio", il costo monetario atteso per generare una soluzione corretta. Definiamo quindi il "costo-per-passaggio di frontiera" come il costo-per-passaggio minimo raggiungibile tra i modelli disponibili o il "costo-per-passaggio dell'esperto umano", utilizzando il costo approssimativo di assumere un esperto. La nostra analisi rivela intuizioni economiche distinte. In primo luogo, i modelli leggeri sono i più convenienti per compiti quantitativi di base, i modelli di grandi dimensioni per quelli ad alta intensità di conoscenza e i modelli di ragionamento per problemi quantitativi complessi, nonostante i costi per token più elevati. In secondo luogo, monitorando questo costo-per-passaggio di frontiera nell'ultimo anno si osserva un progresso significativo, in particolare per i compiti quantitativi complessi, dove il costo si è approssimativamente dimezzato ogni pochi mesi. In terzo luogo, per tracciare le innovazioni chiave che guidano questo progresso, esaminiamo le frontiere controfattuali: stime dell'efficienza dei costi senza specifiche classi di modelli. Scopriamo che le innovazioni nei modelli leggeri, di grandi dimensioni e di ragionamento sono state essenziali per spingere la frontiera nei compiti quantitativi di base, ad alta intensità di conoscenza e quantitativi complessi, rispettivamente. Infine, valutiamo le riduzioni di costo ottenute con tecniche comuni di inferenza come il voto a maggioranza e l'autoraffinamento, rilevando che i guadagni marginali in accuratezza raramente giustificano i costi. I nostri risultati sottolineano che le innovazioni complementari a livello di modello sono i principali motori dell'efficienza dei costi, e il nostro framework economico fornisce uno strumento metodologico per misurare questo progresso e guidare l'implementazione.
English
The widespread adoption of AI systems in the economy hinges on their ability to generate economic value that outweighs their inference costs. Evaluating this tradeoff requires metrics that account for both performance and costs. We propose a framework grounded in production theory for evaluating language models by combining accuracy and inference cost. We introduce "cost-of-pass", the expected monetary cost of generating a correct solution. We then define the "frontier cost-of-pass" as the minimum cost-of-pass achievable across available models or the "human-expert, using the approximate cost of hiring an expert. Our analysis reveals distinct economic insights. First, lightweight models are most cost-effective for basic quantitative tasks, large models for knowledge-intensive ones, and reasoning models for complex quantitative problems, despite higher per-token costs. Second, tracking this frontier cost-of-pass over the past year reveals significant progress, particularly for complex quantitative tasks where the cost has roughly halved every few months. Third, to trace key innovations driving this progress, we examine counterfactual frontiers: estimates of cost-efficiency without specific model classes. We find that innovations in lightweight, large, and reasoning models have been essential for pushing the frontier in basic quantitative, knowledge-intensive, and complex quantitative tasks, respectively. Finally, we assess the cost-reductions afforded by common inference-time techniques like majority voting and self-refinement, finding that their marginal accuracy gains rarely justify their costs. Our findings underscore that complementary model-level innovations are the primary drivers of cost-efficiency, and our economic framework provides a principled tool for measuring this progress and guiding deployment.

Summary

AI-Generated Summary

PDF52April 21, 2025