ChatPaper.aiChatPaper

Inteligencia por Vatio: Medición de la Eficiencia Intelectual de la IA Local

Intelligence per Watt: Measuring Intelligence Efficiency of Local AI

November 11, 2025
Autores: Jon Saad-Falcon, Avanika Narayan, Hakki Orhun Akengin, J. Wes Griffin, Herumb Shandilya, Adrian Gamarra Lafuente, Medhya Goel, Rebecca Joseph, Shlok Natarajan, Etash Kumar Guha, Shang Zhu, Ben Athiwaratkun, John Hennessy, Azalia Mirhoseini, Christopher Ré
cs.AI

Resumen

Las consultas a modelos de lenguaje grandes (LLM) se procesan predominantemente mediante modelos de vanguardia en infraestructuras de nube centralizadas. La demanda de rápido crecimiento tensiona este paradigma, y los proveedores de nube tienen dificultades para escalar la infraestructura al mismo ritmo. Dos avances nos permiten replantearnos este paradigma: los modelos de lenguaje pequeños (<=20.000 millones de parámetros activos) ahora logran un rendimiento competitivo frente a los modelos de vanguardia en muchas tareas, y los aceleradores locales (por ejemplo, Apple M4 Max) ejecutan estos modelos con latencias interactivas. Esto plantea la pregunta: ¿puede la inferencia local redistribuir de forma viable la demanda de la infraestructura centralizada? Responder a esto requiere medir si los LM locales pueden responder con precisión a consultas del mundo real y si pueden hacerlo con la suficiente eficiencia como para ser prácticos en dispositivos con limitaciones de potencia (es decir, portátiles). Proponemos la inteligencia por vatio (IPW), precisión en la tarea dividida por unidad de potencia, como métrica para evaluar la capacidad y la eficiencia de la inferencia local en pares modelo-acelerador. Realizamos un estudio empírico a gran escala con más de 20 modelos locales de última generación, 8 aceleradores y un subconjunto representativo del tráfico de LLM: 1 millón de consultas reales de chat de un solo turno y de razonamiento. Para cada consulta, medimos la precisión, la energía, la latencia y la potencia. Nuestro análisis revela 3 hallazgos. Primero, los LM locales pueden responder con precisión al 88,7% de las consultas de chat y razonamiento de un solo turno, variando la precisión según el dominio. Segundo, desde 2023 hasta 2025, el IPW mejoró 5,3 veces y la cobertura de consultas locales aumentó del 23,2% al 71,3%. Tercero, los aceleradores locales logran al menos 1,4 veces menos IPW que los aceleradores en la nube que ejecutan modelos idénticos, lo que revela un margen de optimización significativo. Estos hallazgos demuestran que la inferencia local puede redistribuir significativamente la demanda de la infraestructura centralizada, sirviendo el IPW como la métrica crítica para rastrear esta transición. Publicamos nuestro sistema de perfilado de IPW para la evaluación comparativa sistemática de la inteligencia por vatio.
English
Large language model (LLM) queries are predominantly processed by frontier models in centralized cloud infrastructure. Rapidly growing demand strains this paradigm, and cloud providers struggle to scale infrastructure at pace. Two advances enable us to rethink this paradigm: small LMs (<=20B active parameters) now achieve competitive performance to frontier models on many tasks, and local accelerators (e.g., Apple M4 Max) run these models at interactive latencies. This raises the question: can local inference viably redistribute demand from centralized infrastructure? Answering this requires measuring whether local LMs can accurately answer real-world queries and whether they can do so efficiently enough to be practical on power-constrained devices (i.e., laptops). We propose intelligence per watt (IPW), task accuracy divided by unit of power, as a metric for assessing capability and efficiency of local inference across model-accelerator pairs. We conduct a large-scale empirical study across 20+ state-of-the-art local LMs, 8 accelerators, and a representative subset of LLM traffic: 1M real-world single-turn chat and reasoning queries. For each query, we measure accuracy, energy, latency, and power. Our analysis reveals 3 findings. First, local LMs can accurately answer 88.7% of single-turn chat and reasoning queries with accuracy varying by domain. Second, from 2023-2025, IPW improved 5.3x and local query coverage rose from 23.2% to 71.3%. Third, local accelerators achieve at least 1.4x lower IPW than cloud accelerators running identical models, revealing significant headroom for optimization. These findings demonstrate that local inference can meaningfully redistribute demand from centralized infrastructure, with IPW serving as the critical metric for tracking this transition. We release our IPW profiling harness for systematic intelligence-per-watt benchmarking.
PDF63December 2, 2025