ChatPaper.aiChatPaper

Custo-de-Passagem: Um Framework Econômico para Avaliação de Modelos de Linguagem

Cost-of-Pass: An Economic Framework for Evaluating Language Models

April 17, 2025
Autores: Mehmet Hamza Erol, Batu El, Mirac Suzgun, Mert Yuksekgonul, James Zou
cs.AI

Resumo

A adoção generalizada de sistemas de IA na economia depende de sua capacidade de gerar valor econômico que supere seus custos de inferência. Avaliar essa relação requer métricas que considerem tanto o desempenho quanto os custos. Propomos uma estrutura baseada na teoria da produção para avaliar modelos de linguagem, combinando precisão e custo de inferência. Introduzimos o "custo por passagem", o custo monetário esperado para gerar uma solução correta. Em seguida, definimos o "custo por passagem da fronteira" como o menor custo por passagem alcançável entre os modelos disponíveis ou o custo aproximado de contratar um especialista humano. Nossa análise revela insights econômicos distintos. Primeiro, modelos leves são mais custo-efetivos para tarefas quantitativas básicas, modelos grandes para tarefas intensivas em conhecimento e modelos de raciocínio para problemas quantitativos complexos, apesar dos custos mais altos por token. Segundo, o acompanhamento desse custo por passagem da fronteira ao longo do último ano mostra progresso significativo, especialmente para tarefas quantitativas complexas, onde o custo foi reduzido pela metade a cada poucos meses. Terceiro, para rastrear as inovações-chave que impulsionam esse progresso, examinamos fronteiras contrafactuais: estimativas de custo-eficiência sem classes específicas de modelos. Descobrimos que inovações em modelos leves, grandes e de raciocínio foram essenciais para avançar a fronteira em tarefas quantitativas básicas, intensivas em conhecimento e quantitativas complexas, respectivamente. Por fim, avaliamos as reduções de custo proporcionadas por técnicas comuns de inferência, como votação majoritária e autorrefinamento, concluindo que os ganhos marginais de precisão raramente justificam seus custos. Nossas descobertas destacam que inovações complementares no nível do modelo são os principais impulsionadores da custo-eficiência, e nossa estrutura econômica fornece uma ferramenta fundamentada para medir esse progresso e orientar a implantação.
English
The widespread adoption of AI systems in the economy hinges on their ability to generate economic value that outweighs their inference costs. Evaluating this tradeoff requires metrics that account for both performance and costs. We propose a framework grounded in production theory for evaluating language models by combining accuracy and inference cost. We introduce "cost-of-pass", the expected monetary cost of generating a correct solution. We then define the "frontier cost-of-pass" as the minimum cost-of-pass achievable across available models or the "human-expert, using the approximate cost of hiring an expert. Our analysis reveals distinct economic insights. First, lightweight models are most cost-effective for basic quantitative tasks, large models for knowledge-intensive ones, and reasoning models for complex quantitative problems, despite higher per-token costs. Second, tracking this frontier cost-of-pass over the past year reveals significant progress, particularly for complex quantitative tasks where the cost has roughly halved every few months. Third, to trace key innovations driving this progress, we examine counterfactual frontiers: estimates of cost-efficiency without specific model classes. We find that innovations in lightweight, large, and reasoning models have been essential for pushing the frontier in basic quantitative, knowledge-intensive, and complex quantitative tasks, respectively. Finally, we assess the cost-reductions afforded by common inference-time techniques like majority voting and self-refinement, finding that their marginal accuracy gains rarely justify their costs. Our findings underscore that complementary model-level innovations are the primary drivers of cost-efficiency, and our economic framework provides a principled tool for measuring this progress and guiding deployment.

Summary

AI-Generated Summary

PDF52April 21, 2025