Intelligence par Watt : Mesurer l'efficacité énergétique de l'intelligence artificielle locale
Intelligence per Watt: Measuring Intelligence Efficiency of Local AI
November 11, 2025
papers.authors: Jon Saad-Falcon, Avanika Narayan, Hakki Orhun Akengin, J. Wes Griffin, Herumb Shandilya, Adrian Gamarra Lafuente, Medhya Goel, Rebecca Joseph, Shlok Natarajan, Etash Kumar Guha, Shang Zhu, Ben Athiwaratkun, John Hennessy, Azalia Mirhoseini, Christopher Ré
cs.AI
papers.abstract
Les requêtes des grands modèles de langage (LLM) sont principalement traitées par des modèles de pointe dans des infrastructures cloud centralisées. La demande croissante met à rude épreuve ce paradigme, et les fournisseurs de cloud peinent à dimensionner leur infrastructure au rythme requis. Deux avancées permettent de repenser ce paradigme : les petits modèles de langage (≤20 milliards de paramètres actifs) atteignent désormais des performances comparables aux modèles de pointe sur de nombreuses tâches, et les accélérateurs locaux (ex: Apple M4 Max) exécutent ces modèles avec des latences interactives. Cela soulève la question : l'inférence locale peut-elle redistribuer viablement la demande depuis l'infrastructure centralisée ? Pour y répondre, il faut évaluer si les modèles locaux peuvent répondre avec précision à des requêtes du monde réel et le faire assez efficacement pour être pratiques sur des appareils à puissance limitée (ex: ordinateurs portables). Nous proposons l'intelligence par watt (IPW), soit la précision sur une tâche divisée par une unité de puissance, comme métrique pour évaluer les capacités et l'efficacité de l'inférence locale pour différentes paires modèle-accélérateur. Nous menons une étude empirique à grande échelle sur plus de 20 modèles locaux de pointe, 8 accélérateurs et un sous-ensemble représentatif du trafic LLM : 1 million de requêtes réelles de chat en un tour et de raisonnement. Pour chaque requête, nous mesurons la précision, l'énergie, la latence et la puissance. Notre analyse révèle trois résultats. Premièrement, les modèles locaux peuvent répondre avec précision à 88,7 % des requêtes de chat et de raisonnement en un tour, la précision variant selon le domaine. Deuxièmement, entre 2023 et 2025, l'IPW s'est amélioré d'un facteur 5,3 et la couverture des requêtes locales est passée de 23,2 % à 71,3 %. Troisièmement, les accélérateurs locaux atteignent au moins 1,4 fois moins d'IPW que les accélérateurs cloud exécutant des modèles identiques, révélant une marge d'optimisation significative. Ces résultats démontrent que l'inférence locale peut redistribuer substantiellement la demande depuis l'infrastructure centralisée, l'IPW servant de métrique cruciale pour suivre cette transition. Nous publions notre outil de profilage IPW pour un benchmarking systématique de l'intelligence par watt.
English
Large language model (LLM) queries are predominantly processed by frontier models in centralized cloud infrastructure. Rapidly growing demand strains this paradigm, and cloud providers struggle to scale infrastructure at pace. Two advances enable us to rethink this paradigm: small LMs (<=20B active parameters) now achieve competitive performance to frontier models on many tasks, and local accelerators (e.g., Apple M4 Max) run these models at interactive latencies. This raises the question: can local inference viably redistribute demand from centralized infrastructure? Answering this requires measuring whether local LMs can accurately answer real-world queries and whether they can do so efficiently enough to be practical on power-constrained devices (i.e., laptops). We propose intelligence per watt (IPW), task accuracy divided by unit of power, as a metric for assessing capability and efficiency of local inference across model-accelerator pairs. We conduct a large-scale empirical study across 20+ state-of-the-art local LMs, 8 accelerators, and a representative subset of LLM traffic: 1M real-world single-turn chat and reasoning queries. For each query, we measure accuracy, energy, latency, and power. Our analysis reveals 3 findings. First, local LMs can accurately answer 88.7% of single-turn chat and reasoning queries with accuracy varying by domain. Second, from 2023-2025, IPW improved 5.3x and local query coverage rose from 23.2% to 71.3%. Third, local accelerators achieve at least 1.4x lower IPW than cloud accelerators running identical models, revealing significant headroom for optimization. These findings demonstrate that local inference can meaningfully redistribute demand from centralized infrastructure, with IPW serving as the critical metric for tracking this transition. We release our IPW profiling harness for systematic intelligence-per-watt benchmarking.