Limitado por memoria, pero no por ancho de banda: La brecha de inferencia de IA física en la decodificación de LLM con lote de tamaño 1

Resumen

Los sistemas de IA física, incluidos robots, vehículos autónomos, agentes incorporados y copilotos de borde, a menudo ejecutan una carga de trabajo de inferencia diferente a la del servicio de LLM en la nube: decodificación autorregresiva de flujo único con lote de tamaño 1, donde un robot, una transmisión de cámara o una sesión de usuario espera el siguiente token. Esta carga de trabajo suele describirse como limitada por el ancho de banda de memoria. Cada paso de decodificación transfiere los pesos del modelo y la caché KV activa, por lo que la latencia debería escalar con el ancho de banda pico de HBM. Mostramos que esta explicación es cierta pero incompleta. Medimos la decodificación con lote de tamaño 1 para tres transformadores GQA de clase 7 a 8B en cuatro GPUs NVIDIA: H100 SXM5, A100-80GB SXM4, L40S y L4. Evaluamos longitudes de contexto desde 2048 hasta 16384, obteniendo 44 celdas válidas bajo una configuración controlada de SDPA en bf16. La fracción alcanzada del ancho de banda pico de HBM disminuye a medida que aumenta el ancho de banda pico. En la celda principal de Qwen-2.5-7B con contexto=2048, una L4 alcanza aproximadamente el 81 % de su mínimo analítico de memoria, mientras que una H100 alcanza solo el 27 %. La decodificación de IA física está dominada por la memoria, pero una memoria más rápida no se traduce en ganancias proporcionales de latencia. Probamos el término faltante con un experimento A/B de Gráficos CUDA. En H100 con contexto=2048, los Gráficos CUDA mejoran la latencia de decodificación en 1.259x en N=10 sesiones nuevas, con un intervalo de confianza bootstrap del 95 % de 1.253 a 1.267. En L4, la misma intervención da solo 1.028x. Esto aísla una sobrecarga del lado de lanzamiento que se vuelve visible en GPUs rápidas pero permanece mayormente oculta en GPUs más lentas y limitadas por ancho de banda. La implicación para el despliegue es que los ahorros de memoria solo importan cuando el runtime los hace efectivos. En L4, la decodificación en bf16 se sitúa cerca del mínimo de memoria, pero las rutas de cuantificación comunes no recuperan la reducción esperada de 4x en el tráfico de pesos: bnb-nf4 alcanza 59.36 ms/paso y AutoAWQ+Marlin alcanza 45.24 ms/paso desde una línea base de 62.32 ms en bf16. GPTQ+ExLlamaV2, con kernels int4 ajustados con Ada, alcanza 17.36 ms/paso.

English

Physical AI systems, including robots, autonomous vehicles, embodied agents and edge copilots, often run a different inference workload from cloud LLM serving: single-stream, batch-1 autoregressive decode, where one robot, camera feed or user session waits on the next token. This workload is usually described as memory-bandwidth-bound. Each decode step streams model weights and the active KV cache, so latency should scale with peak HBM bandwidth. We show that this account is true but incomplete. We measure batch-1 decode for three 7 to 8B-class GQA transformers across four NVIDIA GPUs: H100 SXM5, A100-80GB SXM4, L40S and L4. We evaluate context lengths from 2048 to 16384, producing 44 valid cells under a controlled bf16 SDPA setup. The achieved fraction of peak HBM bandwidth falls as peak bandwidth rises. On the headline Qwen-2.5-7B ctx=2048 cell, an L4 reaches roughly 81 percent of its analytic memory floor, while an H100 reaches only 27 percent. Physical-AI decode is memory-dominated, but faster memory does not translate into proportional latency gains. We test the missing term with a CUDA Graphs A/B experiment. On H100 at ctx=2048, CUDA Graphs improves decode latency by 1.259x across N=10 fresh sessions, with a 95 percent bootstrap confidence interval of 1.253 to 1.267. On L4, the same intervention gives only 1.028x. This isolates a launch-side overhead that becomes visible on fast GPUs but remains mostly hidden on slower, bandwidth-bound GPUs. The deployment implication is that memory savings matter only when the runtime realises them. On L4, bf16 decode sits close to the memory floor, but common quantised paths do not recover the expected 4x weight-traffic reduction: bnb-nf4 reaches 59.36 ms/step and AutoAWQ+Marlin reaches 45.24 ms/step from a 62.32 ms bf16 baseline. GPTQ+ExLlamaV2, with Ada-tuned int4 kernels, reaches 17.36 ms/step.