ChatPaper.aiChatPaper

Cost-of-Pass: Ein wirtschaftliches Rahmenwerk zur Bewertung von Sprachmodellen

Cost-of-Pass: An Economic Framework for Evaluating Language Models

April 17, 2025
Autoren: Mehmet Hamza Erol, Batu El, Mirac Suzgun, Mert Yuksekgonul, James Zou
cs.AI

Zusammenfassung

Die breite Einführung von KI-Systemen in der Wirtschaft hängt von ihrer Fähigkeit ab, wirtschaftlichen Wert zu generieren, der ihre Inferenzkosten übersteigt. Die Bewertung dieses Trade-offs erfordert Metriken, die sowohl die Leistung als auch die Kosten berücksichtigen. Wir schlagen ein auf der Produktionstheorie basierendes Framework zur Bewertung von Sprachmodellen vor, das Genauigkeit und Inferenzkosten kombiniert. Wir führen den Begriff „Cost-of-Pass“ ein, die erwarteten monetären Kosten für die Generierung einer korrekten Lösung. Anschließend definieren wir den „Frontier Cost-of-Pass“ als die minimal erreichbaren Cost-of-Pass über verfügbare Modelle oder den „Human-Expert“, unter Verwendung der ungefähren Kosten für die Beauftragung eines Experten. Unsere Analyse liefert deutliche wirtschaftliche Erkenntnisse. Erstens sind leichte Modelle für grundlegende quantitative Aufgaben am kosteneffizientesten, große Modelle für wissensintensive Aufgaben und Reasoning-Modelle für komplexe quantitative Probleme, trotz höherer Kosten pro Token. Zweitens zeigt die Verfolgung dieses Frontier Cost-of-Pass im vergangenen Jahr erhebliche Fortschritte, insbesondere bei komplexen quantitativen Aufgaben, bei denen sich die Kosten alle paar Monate ungefähr halbiert haben. Drittens untersuchen wir, um die Schlüsselinnovationen zu identifizieren, die diesen Fortschritt vorantreiben, kontrafaktuelle Grenzen: Schätzungen der Kosteneffizienz ohne bestimmte Modellklassen. Wir stellen fest, dass Innovationen in leichten, großen und Reasoning-Modellen entscheidend waren, um die Grenze bei grundlegenden quantitativen, wissensintensiven und komplexen quantitativen Aufgaben voranzutreiben. Schließlich bewerten wir die Kostensenkungen, die durch gängige Inferenzzeit-Techniken wie Mehrheitsabstimmung und Selbstverfeinerung ermöglicht werden, und stellen fest, dass ihre marginalen Genauigkeitsgewinne ihre Kosten selten rechtfertigen. Unsere Ergebnisse unterstreichen, dass komplementäre Innovationen auf Modellebene die primären Treiber der Kosteneffizienz sind, und unser wirtschaftliches Framework bietet ein prinzipielles Werkzeug, um diesen Fortschritt zu messen und die Bereitstellung zu steuern.
English
The widespread adoption of AI systems in the economy hinges on their ability to generate economic value that outweighs their inference costs. Evaluating this tradeoff requires metrics that account for both performance and costs. We propose a framework grounded in production theory for evaluating language models by combining accuracy and inference cost. We introduce "cost-of-pass", the expected monetary cost of generating a correct solution. We then define the "frontier cost-of-pass" as the minimum cost-of-pass achievable across available models or the "human-expert, using the approximate cost of hiring an expert. Our analysis reveals distinct economic insights. First, lightweight models are most cost-effective for basic quantitative tasks, large models for knowledge-intensive ones, and reasoning models for complex quantitative problems, despite higher per-token costs. Second, tracking this frontier cost-of-pass over the past year reveals significant progress, particularly for complex quantitative tasks where the cost has roughly halved every few months. Third, to trace key innovations driving this progress, we examine counterfactual frontiers: estimates of cost-efficiency without specific model classes. We find that innovations in lightweight, large, and reasoning models have been essential for pushing the frontier in basic quantitative, knowledge-intensive, and complex quantitative tasks, respectively. Finally, we assess the cost-reductions afforded by common inference-time techniques like majority voting and self-refinement, finding that their marginal accuracy gains rarely justify their costs. Our findings underscore that complementary model-level innovations are the primary drivers of cost-efficiency, and our economic framework provides a principled tool for measuring this progress and guiding deployment.

Summary

AI-Generated Summary

PDF52April 21, 2025