Cost-of-Pass: Ein wirtschaftliches Rahmenwerk zur Bewertung von Sprachmodellen
Cost-of-Pass: An Economic Framework for Evaluating Language Models
April 17, 2025
Autoren: Mehmet Hamza Erol, Batu El, Mirac Suzgun, Mert Yuksekgonul, James Zou
cs.AI
Zusammenfassung
Die breite Einführung von KI-Systemen in der Wirtschaft hängt von ihrer Fähigkeit ab, wirtschaftlichen Wert zu generieren, der ihre Inferenzkosten übersteigt. Die Bewertung dieses Trade-offs erfordert Metriken, die sowohl die Leistung als auch die Kosten berücksichtigen. Wir schlagen ein auf der Produktionstheorie basierendes Framework zur Bewertung von Sprachmodellen vor, das Genauigkeit und Inferenzkosten kombiniert. Wir führen den Begriff „Cost-of-Pass“ ein, die erwarteten monetären Kosten für die Generierung einer korrekten Lösung. Anschließend definieren wir den „Frontier Cost-of-Pass“ als die minimal erreichbaren Cost-of-Pass über verfügbare Modelle oder den „Human-Expert“, unter Verwendung der ungefähren Kosten für die Beauftragung eines Experten. Unsere Analyse liefert deutliche wirtschaftliche Erkenntnisse. Erstens sind leichte Modelle für grundlegende quantitative Aufgaben am kosteneffizientesten, große Modelle für wissensintensive Aufgaben und Reasoning-Modelle für komplexe quantitative Probleme, trotz höherer Kosten pro Token. Zweitens zeigt die Verfolgung dieses Frontier Cost-of-Pass im vergangenen Jahr erhebliche Fortschritte, insbesondere bei komplexen quantitativen Aufgaben, bei denen sich die Kosten alle paar Monate ungefähr halbiert haben. Drittens untersuchen wir, um die Schlüsselinnovationen zu identifizieren, die diesen Fortschritt vorantreiben, kontrafaktuelle Grenzen: Schätzungen der Kosteneffizienz ohne bestimmte Modellklassen. Wir stellen fest, dass Innovationen in leichten, großen und Reasoning-Modellen entscheidend waren, um die Grenze bei grundlegenden quantitativen, wissensintensiven und komplexen quantitativen Aufgaben voranzutreiben. Schließlich bewerten wir die Kostensenkungen, die durch gängige Inferenzzeit-Techniken wie Mehrheitsabstimmung und Selbstverfeinerung ermöglicht werden, und stellen fest, dass ihre marginalen Genauigkeitsgewinne ihre Kosten selten rechtfertigen. Unsere Ergebnisse unterstreichen, dass komplementäre Innovationen auf Modellebene die primären Treiber der Kosteneffizienz sind, und unser wirtschaftliches Framework bietet ein prinzipielles Werkzeug, um diesen Fortschritt zu messen und die Bereitstellung zu steuern.
English
The widespread adoption of AI systems in the economy hinges on their ability
to generate economic value that outweighs their inference costs. Evaluating
this tradeoff requires metrics that account for both performance and costs. We
propose a framework grounded in production theory for evaluating language
models by combining accuracy and inference cost. We introduce "cost-of-pass",
the expected monetary cost of generating a correct solution. We then define the
"frontier cost-of-pass" as the minimum cost-of-pass achievable across available
models or the "human-expert, using the approximate cost of hiring an expert.
Our analysis reveals distinct economic insights. First, lightweight models are
most cost-effective for basic quantitative tasks, large models for
knowledge-intensive ones, and reasoning models for complex quantitative
problems, despite higher per-token costs. Second, tracking this frontier
cost-of-pass over the past year reveals significant progress, particularly for
complex quantitative tasks where the cost has roughly halved every few months.
Third, to trace key innovations driving this progress, we examine
counterfactual frontiers: estimates of cost-efficiency without specific model
classes. We find that innovations in lightweight, large, and reasoning models
have been essential for pushing the frontier in basic quantitative,
knowledge-intensive, and complex quantitative tasks, respectively. Finally, we
assess the cost-reductions afforded by common inference-time techniques like
majority voting and self-refinement, finding that their marginal accuracy gains
rarely justify their costs. Our findings underscore that complementary
model-level innovations are the primary drivers of cost-efficiency, and our
economic framework provides a principled tool for measuring this progress and
guiding deployment.Summary
AI-Generated Summary