Cost-of-Pass: Un Framework Economico per la Valutazione dei Modelli Linguistici
Cost-of-Pass: An Economic Framework for Evaluating Language Models
April 17, 2025
Autori: Mehmet Hamza Erol, Batu El, Mirac Suzgun, Mert Yuksekgonul, James Zou
cs.AI
Abstract
L'adozione diffusa dei sistemi di intelligenza artificiale nell'economia dipende dalla loro capacità di generare valore economico che superi i costi di inferenza. Valutare questo compromesso richiede metriche che tengano conto sia delle prestazioni che dei costi. Proponiamo un framework basato sulla teoria della produzione per valutare i modelli linguistici combinando accuratezza e costo di inferenza. Introduciamo il concetto di "costo-per-passaggio", il costo monetario atteso per generare una soluzione corretta. Definiamo quindi il "costo-per-passaggio di frontiera" come il costo-per-passaggio minimo raggiungibile tra i modelli disponibili o il "costo-per-passaggio dell'esperto umano", utilizzando il costo approssimativo di assumere un esperto. La nostra analisi rivela intuizioni economiche distinte. In primo luogo, i modelli leggeri sono i più convenienti per compiti quantitativi di base, i modelli di grandi dimensioni per quelli ad alta intensità di conoscenza e i modelli di ragionamento per problemi quantitativi complessi, nonostante i costi per token più elevati. In secondo luogo, monitorando questo costo-per-passaggio di frontiera nell'ultimo anno si osserva un progresso significativo, in particolare per i compiti quantitativi complessi, dove il costo si è approssimativamente dimezzato ogni pochi mesi. In terzo luogo, per tracciare le innovazioni chiave che guidano questo progresso, esaminiamo le frontiere controfattuali: stime dell'efficienza dei costi senza specifiche classi di modelli. Scopriamo che le innovazioni nei modelli leggeri, di grandi dimensioni e di ragionamento sono state essenziali per spingere la frontiera nei compiti quantitativi di base, ad alta intensità di conoscenza e quantitativi complessi, rispettivamente. Infine, valutiamo le riduzioni di costo ottenute con tecniche comuni di inferenza come il voto a maggioranza e l'autoraffinamento, rilevando che i guadagni marginali in accuratezza raramente giustificano i costi. I nostri risultati sottolineano che le innovazioni complementari a livello di modello sono i principali motori dell'efficienza dei costi, e il nostro framework economico fornisce uno strumento metodologico per misurare questo progresso e guidare l'implementazione.
English
The widespread adoption of AI systems in the economy hinges on their ability
to generate economic value that outweighs their inference costs. Evaluating
this tradeoff requires metrics that account for both performance and costs. We
propose a framework grounded in production theory for evaluating language
models by combining accuracy and inference cost. We introduce "cost-of-pass",
the expected monetary cost of generating a correct solution. We then define the
"frontier cost-of-pass" as the minimum cost-of-pass achievable across available
models or the "human-expert, using the approximate cost of hiring an expert.
Our analysis reveals distinct economic insights. First, lightweight models are
most cost-effective for basic quantitative tasks, large models for
knowledge-intensive ones, and reasoning models for complex quantitative
problems, despite higher per-token costs. Second, tracking this frontier
cost-of-pass over the past year reveals significant progress, particularly for
complex quantitative tasks where the cost has roughly halved every few months.
Third, to trace key innovations driving this progress, we examine
counterfactual frontiers: estimates of cost-efficiency without specific model
classes. We find that innovations in lightweight, large, and reasoning models
have been essential for pushing the frontier in basic quantitative,
knowledge-intensive, and complex quantitative tasks, respectively. Finally, we
assess the cost-reductions afforded by common inference-time techniques like
majority voting and self-refinement, finding that their marginal accuracy gains
rarely justify their costs. Our findings underscore that complementary
model-level innovations are the primary drivers of cost-efficiency, and our
economic framework provides a principled tool for measuring this progress and
guiding deployment.Summary
AI-Generated Summary