ChatPaper.aiChatPaper

와트당 지능: 로컬 AI의 지능 효율성 측정

Intelligence per Watt: Measuring Intelligence Efficiency of Local AI

November 11, 2025
저자: Jon Saad-Falcon, Avanika Narayan, Hakki Orhun Akengin, J. Wes Griffin, Herumb Shandilya, Adrian Gamarra Lafuente, Medhya Goel, Rebecca Joseph, Shlok Natarajan, Etash Kumar Guha, Shang Zhu, Ben Athiwaratkun, John Hennessy, Azalia Mirhoseini, Christopher Ré
cs.AI

초록

대규모 언어 모델(LLM) 쿼리는 주로 중앙 집중식 클라우드 인프라의 최첨단 모델들에 의해 처리됩니다. 빠르게 증가하는 수요는 이 패러다임에 부담을 주며, 클라우드 제공자들은 인프라를 빠른 속도로 확장하는 데 어려움을 겪고 있습니다. 두 가지 진보가 이 패러다임을 재고할 수 있는 계기를 마련했습니다: 많은 작업에서 소형 LM들(활성 매개변수 <=200억 개)이 이제 최첨단 모델에 필적하는 성능을 달성하고 있으며, 로컬 가속기(예: Apple M4 Max)가 이러한 모델들을 대화형 지연 시간으로 실행합니다. 이는 다음과 같은 의문을 제기합니다: 로컬 추론이 중앙 집중식 인프라의 수요를 실질적으로 재분배할 수 있을까? 이에 답하기 위해서는 로컬 LM이 현실 세계의 쿼리에 정확하게 답변할 수 있는지, 그리고 전력 제약이 있는 장치(예: 노트북)에서 실용적일 수 있을 만큼 효율적으로 수행할 수 있는지를 측정해야 합니다. 우리는 작업 정확도를 전력 단위로 나눈 '와트당 지능(Intelligence Per Watt, IPW)' 지표를 제안하여, 다양한 모델-가속기 조합에 걸친 로컬 추론의 성능과 효율성을 평가하는 척도로 삼습니다. 우리는 20개 이상의 최신 로컬 LM, 8개의 가속기, 그리고 LLM 트래픽의 대표적인 부분 집합인 100만 개의 현실적 단일 턴 채팅 및 추론 쿼리를 대상으로 대규모 실증 연구를 수행했습니다. 각 쿼리에 대해 정확도, 에너지 소비량, 지연 시간, 전력을 측정했습니다. 우리의 분석은 세 가지 결과를 보여줍니다. 첫째, 로컬 LM은 단일 턴 채팅 및 추론 쿼리의 88.7%를 정확하게 답변할 수 있으며, 정확도는 분야에 따라 다릅니다. 둘째, 2023년부터 2025년까지 IPW는 5.3배 향상되었고, 로컬 쿼리 처리 범위는 23.2%에서 71.3%로 증가했습니다. 셋째, 로컬 가속기는 동일한 모델을 실행하는 클라우드 가속기보다 최소 1.4배 낮은 IPW를 달성하여 최적화를 위한 상당한 여지가 있음을 보여줍니다. 이러한 결과들은 로컬 추론이 중앙 집중식 인프라의 수요를 의미 있게 재분배할 수 있으며, IPW가 이 전환을 추적하는 중요한 지표 역할을 할 수 있음을 입증합니다. 우리는 체계적인 와트당 지능 벤치마킹을 위한 IPW 프로파일링 도구를 공개합니다.
English
Large language model (LLM) queries are predominantly processed by frontier models in centralized cloud infrastructure. Rapidly growing demand strains this paradigm, and cloud providers struggle to scale infrastructure at pace. Two advances enable us to rethink this paradigm: small LMs (<=20B active parameters) now achieve competitive performance to frontier models on many tasks, and local accelerators (e.g., Apple M4 Max) run these models at interactive latencies. This raises the question: can local inference viably redistribute demand from centralized infrastructure? Answering this requires measuring whether local LMs can accurately answer real-world queries and whether they can do so efficiently enough to be practical on power-constrained devices (i.e., laptops). We propose intelligence per watt (IPW), task accuracy divided by unit of power, as a metric for assessing capability and efficiency of local inference across model-accelerator pairs. We conduct a large-scale empirical study across 20+ state-of-the-art local LMs, 8 accelerators, and a representative subset of LLM traffic: 1M real-world single-turn chat and reasoning queries. For each query, we measure accuracy, energy, latency, and power. Our analysis reveals 3 findings. First, local LMs can accurately answer 88.7% of single-turn chat and reasoning queries with accuracy varying by domain. Second, from 2023-2025, IPW improved 5.3x and local query coverage rose from 23.2% to 71.3%. Third, local accelerators achieve at least 1.4x lower IPW than cloud accelerators running identical models, revealing significant headroom for optimization. These findings demonstrate that local inference can meaningfully redistribute demand from centralized infrastructure, with IPW serving as the critical metric for tracking this transition. We release our IPW profiling harness for systematic intelligence-per-watt benchmarking.
PDF63December 2, 2025