Posição: A Inferência de LLM Deve Ser Avaliada como Produção de Tokens a Partir de Energia

Resumo

A inferência de LLMs ainda é avaliada principalmente como um problema de modelo ou software: acurácia, latência, throughput e utilização de hardware. Isso é incompleto. Em escala de implantação, a saída relevante é um token condicionado à qualidade, produzido sob restrições conjuntas de poder computacional efetivo, energia elétrica fornecida ao datacenter, capacidade de refrigeração, PUE e utilização. Argumentamos que a comunidade de ML deveria tratar a inferência como produção de energia-para-token. Formalizamos essa visão com uma Função de Produção de Tokens dimensionalmente consistente, na qual a taxa de tokens é limitada tanto por tetos de computação-por-token quanto de energia-por-token. Os preços de API listados variam por mais de uma ordem de grandeza entre provedores, mas usamos a dispersão de preços apenas como motivação direcional, não como evidência causal de custo marginal. A questão física central é, em vez disso: sob metas fixas de qualidade e serviço, quando a restrição limitante se desloca do pico de computação teórico para a energia elétrica fornecida, a refrigeração e a eficiência operacional? Sob esse enquadramento, otimizações de sistema – compressão latente de cache KV, atenção esparsa ou fortemente comprimida, quantização, roteamento e raciocínio adaptativo à dificuldade – não são meros truques locais de engenharia. Elas são alavancas de energia-para-token, pois reduzem FLOPs/token, joules/token, tráfego de memória ou perdas de utilização sob parâmetros fixos (q^{*}, s^{*}). Portanto, solicitamos que artigos e benchmarks sobre inferência reportem Joules/token, restrição limitante ativa, potência fornecida ajustada por PUE e saída de tokens ajustada por utilização, juntamente com acurácia e latência.

English

LLM inference is still evaluated mainly as a model or software problem: accuracy, latency, throughput, and hardware utilization. This is incomplete. At deployment scale, the relevant output is a quality-conditioned token produced under joint constraints from effective compute, delivered data-center power, cooling capacity, PUE, and utilization. We argue that the ML community should treat inference as energy-to-token production. We formalize this view with a dimensionally consistent Token Production Function in which token rate is bounded by both compute-per-token and energy-per-token ceilings. Listed API prices vary by over an order of magnitude across providers, but we use price dispersion only as directional motivation, not as causal evidence of marginal cost. The core physical question is instead: under fixed quality and service targets, when does the binding constraint move from theoretical peak compute toward delivered power, cooling, and operational efficiency? Under this framing, system optimizations -- latent KV-cache compression, sparse or heavily compressed attention, quantization, routing, and difficulty-adaptive reasoning -- are not merely local engineering tricks. They are energy-to-token levers because they reduce FLOPs/token, joules/token, memory traffic, or utilization losses under fixed (q^{*},s^{*}). We therefore call for inference papers and benchmarks to report Joules/token, active binding constraint, PUE-adjusted delivered power, and utilization-adjusted token output alongside accuracy and latency.