Limitado pela Memória, mas Não pela Largura de Banda: A Lacuna de Inferência de IA Física na Decodificação de LLM com Lote-1

Resumo

Sistemas de IA física, incluindo robôs, veículos autônomos, agentes corporificados e copilotos de borda, frequentemente executam uma carga de trabalho de inferência diferente daquela do serviço de LLM em nuvem: decodificação autorregressiva de fluxo único e lote-1, onde um robô, um feed de câmera ou uma sessão de usuário aguarda o próximo token. Essa carga de trabalho é geralmente descrita como limitada pela largura de banda da memória. Cada etapa de decodificação transmite os pesos do modelo e o cache KV ativo, de modo que a latência deve escalar com a largura de banda HBM de pico. Mostramos que essa descrição é verdadeira, mas incompleta. Medimos a decodificação lote-1 para três transformadores GQA da classe de 7 a 8 parâmetros em quatro GPUs NVIDIA: H100 SXM5, A100-80GB SXM4, L40S e L4. Avaliamos comprimentos de contexto de 2048 a 16384, produzindo 44 células válidas sob uma configuração controlada de SDPA bf16. A fração alcançada da largura de banda HBM de pico diminui à medida que a largura de banda de pico aumenta. Na célula principal Qwen-2.5-7B ctx=2048, uma L4 atinge aproximadamente 81 por cento do seu piso analítico de memória, enquanto uma H100 atinge apenas 27 por cento. A decodificação para IA física é dominada pela memória, mas memórias mais rápidas não se traduzem em ganhos proporcionais de latência. Testamos o termo ausente com um experimento A/B usando CUDA Graphs. Na H100 com ctx=2048, o CUDA Graphs melhora a latência de decodificação em 1,259x em N=10 sessões novas, com um intervalo de confiança bootstrap de 95% entre 1,253 e 1,267. Na L4, a mesma intervenção proporciona apenas 1,028x. Isso isola uma sobrecarga no lado do lançamento que se torna visível em GPUs rápidas, mas permanece praticamente oculta em GPUs mais lentas e limitadas por largura de banda. A implicação para implantação é que as economias de memória só importam quando o runtime as realiza. Na L4, a decodificação bf16 está próxima do piso de memória, mas caminhos quantizados comuns não recuperam a redução esperada de 4x no tráfego de pesos: bnb-nf4 atinge 59,36 ms/etapa e AutoAWQ+Marlin atinge 45,24 ms/etapa a partir de uma linha de base bf16 de 62,32 ms. O GPTQ+ExLlamaV2, com kernels int4 ajustados para Ada, atinge 17,36 ms/etapa.

English

Physical AI systems, including robots, autonomous vehicles, embodied agents and edge copilots, often run a different inference workload from cloud LLM serving: single-stream, batch-1 autoregressive decode, where one robot, camera feed or user session waits on the next token. This workload is usually described as memory-bandwidth-bound. Each decode step streams model weights and the active KV cache, so latency should scale with peak HBM bandwidth. We show that this account is true but incomplete. We measure batch-1 decode for three 7 to 8B-class GQA transformers across four NVIDIA GPUs: H100 SXM5, A100-80GB SXM4, L40S and L4. We evaluate context lengths from 2048 to 16384, producing 44 valid cells under a controlled bf16 SDPA setup. The achieved fraction of peak HBM bandwidth falls as peak bandwidth rises. On the headline Qwen-2.5-7B ctx=2048 cell, an L4 reaches roughly 81 percent of its analytic memory floor, while an H100 reaches only 27 percent. Physical-AI decode is memory-dominated, but faster memory does not translate into proportional latency gains. We test the missing term with a CUDA Graphs A/B experiment. On H100 at ctx=2048, CUDA Graphs improves decode latency by 1.259x across N=10 fresh sessions, with a 95 percent bootstrap confidence interval of 1.253 to 1.267. On L4, the same intervention gives only 1.028x. This isolates a launch-side overhead that becomes visible on fast GPUs but remains mostly hidden on slower, bandwidth-bound GPUs. The deployment implication is that memory savings matter only when the runtime realises them. On L4, bf16 decode sits close to the memory floor, but common quantised paths do not recover the expected 4x weight-traffic reduction: bnb-nf4 reaches 59.36 ms/step and AutoAWQ+Marlin reaches 45.24 ms/step from a 62.32 ms bf16 baseline. GPTQ+ExLlamaV2, with Ada-tuned int4 kernels, reaches 17.36 ms/step.