ChatPaper.aiChatPaper

Cost-of-Pass: 언어 모델 평가를 위한 경제적 프레임워크

Cost-of-Pass: An Economic Framework for Evaluating Language Models

April 17, 2025
저자: Mehmet Hamza Erol, Batu El, Mirac Suzgun, Mert Yuksekgonul, James Zou
cs.AI

초록

경제 전반에 걸친 AI 시스템의 광범위한 채택은 그 추론 비용을 상회하는 경제적 가치를 창출할 수 있는 능력에 달려 있습니다. 이러한 상충 관계를 평가하기 위해서는 성능과 비용을 모두 고려한 지표가 필요합니다. 우리는 정확도와 추론 비용을 결합하여 언어 모델을 평가하기 위해 생산 이론에 기반한 프레임워크를 제안합니다. 여기서 "통과 비용(cost-of-pass)"이란 올바른 해결책을 생성하는 데 드는 예상 금전적 비용을 의미합니다. 또한, "최적 통과 비용(frontier cost-of-pass)"을 사용 가능한 모델들 간에 달성 가능한 최소 통과 비용 또는 전문가를 고용하는 데 드는 대략적인 비용으로 정의합니다. 우리의 분석은 뚜렷한 경제적 통찰을 제공합니다. 첫째, 기본적인 정량적 작업에는 경량 모델이 가장 비용 효율적이며, 지식 집약적 작업에는 대형 모델이, 복잡한 정량적 문제에는 추론 모델이 더 높은 토큰당 비용에도 불구하고 적합합니다. 둘째, 지난해 동안 이 최적 통과 비용을 추적한 결과, 특히 복잡한 정량적 작업에서 비용이 몇 달마다 대략 절반으로 감소하는 등 상당한 진전이 있었음을 확인했습니다. 셋째, 이러한 진전을 주도한 주요 혁신을 추적하기 위해, 특정 모델 클래스가 없을 경우의 비용 효율성을 추정한 대안적 최적선(counterfactual frontiers)을 검토합니다. 이를 통해 경량 모델, 대형 모델, 추론 모델의 혁신이 각각 기본 정량적, 지식 집약적, 복잡한 정량적 작업에서 최적선을 밀어붙이는 데 필수적이었음을 발견했습니다. 마지막으로, 다수결 투표(majority voting)와 자기 개선(self-refinement)과 같은 일반적인 추론 시 기법들이 제공하는 비용 절감 효과를 평가한 결과, 이들의 한계 정확도 향상이 비용을 정당화하기는 어려운 것으로 나타났습니다. 우리의 연구 결과는 상호 보완적인 모델 수준의 혁신이 비용 효율성의 주요 동력임을 강조하며, 우리의 경제적 프레임워크는 이러한 진전을 측정하고 배포를 안내하는 원칙적인 도구를 제공합니다.
English
The widespread adoption of AI systems in the economy hinges on their ability to generate economic value that outweighs their inference costs. Evaluating this tradeoff requires metrics that account for both performance and costs. We propose a framework grounded in production theory for evaluating language models by combining accuracy and inference cost. We introduce "cost-of-pass", the expected monetary cost of generating a correct solution. We then define the "frontier cost-of-pass" as the minimum cost-of-pass achievable across available models or the "human-expert, using the approximate cost of hiring an expert. Our analysis reveals distinct economic insights. First, lightweight models are most cost-effective for basic quantitative tasks, large models for knowledge-intensive ones, and reasoning models for complex quantitative problems, despite higher per-token costs. Second, tracking this frontier cost-of-pass over the past year reveals significant progress, particularly for complex quantitative tasks where the cost has roughly halved every few months. Third, to trace key innovations driving this progress, we examine counterfactual frontiers: estimates of cost-efficiency without specific model classes. We find that innovations in lightweight, large, and reasoning models have been essential for pushing the frontier in basic quantitative, knowledge-intensive, and complex quantitative tasks, respectively. Finally, we assess the cost-reductions afforded by common inference-time techniques like majority voting and self-refinement, finding that their marginal accuracy gains rarely justify their costs. Our findings underscore that complementary model-level innovations are the primary drivers of cost-efficiency, and our economic framework provides a principled tool for measuring this progress and guiding deployment.

Summary

AI-Generated Summary

PDF52April 21, 2025