Limité par la mémoire mais pas par la bande passante : l'écart d'inférence IA physique dans le décodage batch-1 de LLM

Résumé

Les systèmes d'IA physique, incluant les robots, les véhicules autonomes, les agents incarnés et les copilotes embarqués, exécutent souvent une charge de travail d'inférence différente de celle du service LLM dans le cloud : un décodage autorégressif à flux unique et batch-1, où un robot, un flux de caméra ou une session utilisateur attend le jeton suivant. Cette charge de travail est généralement décrite comme étant limitée par la bande passante mémoire. Chaque étape de décodage diffuse les poids du modèle et le cache KV actif, de sorte que la latence devrait évoluer en fonction de la bande passante HBM de pointe. Nous montrons que cette explication est vraie mais incomplète. Nous mesurons le décodage batch-1 pour trois transformateurs GQA de classe 7 à 8B sur quatre GPU NVIDIA : H100 SXM5, A100-80GB SXM4, L40S et L4. Nous évaluons des longueurs de contexte de 2048 à 16384, produisant 44 cellules valides dans une configuration SDPA bf16 contrôlée. La fraction atteinte de la bande passante HBM de pointe diminue à mesure que la bande passante de pointe augmente. Sur la cellule phare Qwen-2.5-7B ctx=2048, un L4 atteint environ 81 % de son plancher mémoire analytique, tandis qu'un H100 n'atteint que 27 %. Le décodage d'IA physique est dominé par la mémoire, mais une mémoire plus rapide ne se traduit pas par des gains de latence proportionnels. Nous testons le terme manquant avec une expérience A/B avec CUDA Graphs. Sur H100 à ctx=2048, CUDA Graphs améliore la latence de décodage de 1,259× sur N=10 sessions fraîches, avec un intervalle de confiance bootstrap de 95 % de 1,253 à 1,267. Sur L4, la même intervention ne donne que 1,028×. Cela isole une surcharge côté lancement qui devient visible sur les GPU rapides mais reste en grande partie cachée sur les GPU plus lents et limités par la bande passante. L'implication pour le déploiement est que les économies de mémoire ne comptent que lorsque l'exécution les réalise. Sur L4, le décodage bf16 se situe près du plancher mémoire, mais les chemins quantifiés courants ne récupèrent pas la réduction attendue de 4× du trafic de poids : bnb-nf4 atteint 59,36 ms/étape et AutoAWQ+Marlin atteint 45,24 ms/étape par rapport à une référence bf16 de 62,32 ms. GPTQ+ExLlamaV2, avec des noyaux int4 ajustés pour Ada, atteint 17,36 ms/étape.

English

Physical AI systems, including robots, autonomous vehicles, embodied agents and edge copilots, often run a different inference workload from cloud LLM serving: single-stream, batch-1 autoregressive decode, where one robot, camera feed or user session waits on the next token. This workload is usually described as memory-bandwidth-bound. Each decode step streams model weights and the active KV cache, so latency should scale with peak HBM bandwidth. We show that this account is true but incomplete. We measure batch-1 decode for three 7 to 8B-class GQA transformers across four NVIDIA GPUs: H100 SXM5, A100-80GB SXM4, L40S and L4. We evaluate context lengths from 2048 to 16384, producing 44 valid cells under a controlled bf16 SDPA setup. The achieved fraction of peak HBM bandwidth falls as peak bandwidth rises. On the headline Qwen-2.5-7B ctx=2048 cell, an L4 reaches roughly 81 percent of its analytic memory floor, while an H100 reaches only 27 percent. Physical-AI decode is memory-dominated, but faster memory does not translate into proportional latency gains. We test the missing term with a CUDA Graphs A/B experiment. On H100 at ctx=2048, CUDA Graphs improves decode latency by 1.259x across N=10 fresh sessions, with a 95 percent bootstrap confidence interval of 1.253 to 1.267. On L4, the same intervention gives only 1.028x. This isolates a launch-side overhead that becomes visible on fast GPUs but remains mostly hidden on slower, bandwidth-bound GPUs. The deployment implication is that memory savings matter only when the runtime realises them. On L4, bf16 decode sits close to the memory floor, but common quantised paths do not recover the expected 4x weight-traffic reduction: bnb-nf4 reaches 59.36 ms/step and AutoAWQ+Marlin reaches 45.24 ms/step from a 62.32 ms bf16 baseline. GPTQ+ExLlamaV2, with Ada-tuned int4 kernels, reaches 17.36 ms/step.