Speichergebunden, aber nicht bandbreitenbegrenzt: Die physische KI-Inferenzlücke beim Batch-1-LLM-Decode

Zusammenfassung

Physikalische KI-Systeme – darunter Roboter, autonome Fahrzeuge, verkörperte Agenten und Edge-Copiloten – führen häufig eine andere Inferenzlast aus als Cloud-LLM-Serving: die Single-Stream-, Batch-1-autoregressive Dekodierung, bei der ein Roboter, ein Kamera-Feed oder eine Benutzersitzung auf das nächste Token wartet. Diese Arbeitslast wird üblicherweise als speicherbandbreitenbegrenzt beschrieben. Jeder Dekodierschritt streamt die Modellgewichte und den aktiven KV-Cache, sodass die Latenz mit der Spitzen-HBM-Bandbreite skalieren sollte. Wir zeigen, dass diese Darstellung zwar zutrifft, aber unvollständig ist. Wir messen die Batch-1-Dekodierung für drei GQA-Transformer der 7- bis 8B-Klasse auf vier NVIDIA-GPUs: H100 SXM5, A100-80GB SXM4, L40S und L4. Wir evaluieren Kontextlängen von 2048 bis 16384 und erzeugen 44 gültige Zellen unter einem kontrollierten bf16-SDPA-Setup. Der erreichte Anteil der Spitzen-HBM-Bandbreite sinkt mit steigender Spitzenbandbreite. In der exemplarischen Zelle Qwen-2.5-7B ctx=2048 erreicht eine L4 etwa 81 % ihres analytischen Speicherminimums, während eine H100 nur 27 % erreicht. Die Physical-AI-Dekodierung ist speicherdominiert, doch schnellere Speicherbandbreite führt nicht zu proportionalen Latenzgewinnen. Wir testen den fehlenden Term mit einem CUDA-Graphs-A/B-Experiment. Auf der H100 bei ctx=2048 verbessern CUDA Graphs die Dekodierlatenz um das 1,259-fache über N=10 frische Sitzungen, mit einem 95-%-Bootstrap-Konfidenzintervall von 1,253 bis 1,267. Auf der L4 ergibt derselbe Eingriff nur das 1,028-fache. Dies isoliert einen Launch-Overhead, der auf schnellen GPUs sichtbar wird, auf langsameren, bandbreitenbegrenzten GPUs jedoch weitgehend verborgen bleibt. Die Implikation für den Einsatz ist, dass Speichereinsparungen nur dann relevant sind, wenn die Laufzeit sie realisiert. Auf der L4 liegt die bf16-Dekodierung nahe am Speicherminimum, doch gängige quantisierte Pfade erzielen nicht die erwartete 4-fache Reduktion des Gewichtsdatenverkehrs: bnb-nf4 erreicht 59,36 ms/Schritt und AutoAWQ+Marlin 45,24 ms/Schritt bei einer bf16-Baseline von 62,32 ms. GPTQ+ExLlamaV2 mit Ada-optimierten int4-Kernels erreicht 17,36 ms/Schritt.

English

Physical AI systems, including robots, autonomous vehicles, embodied agents and edge copilots, often run a different inference workload from cloud LLM serving: single-stream, batch-1 autoregressive decode, where one robot, camera feed or user session waits on the next token. This workload is usually described as memory-bandwidth-bound. Each decode step streams model weights and the active KV cache, so latency should scale with peak HBM bandwidth. We show that this account is true but incomplete. We measure batch-1 decode for three 7 to 8B-class GQA transformers across four NVIDIA GPUs: H100 SXM5, A100-80GB SXM4, L40S and L4. We evaluate context lengths from 2048 to 16384, producing 44 valid cells under a controlled bf16 SDPA setup. The achieved fraction of peak HBM bandwidth falls as peak bandwidth rises. On the headline Qwen-2.5-7B ctx=2048 cell, an L4 reaches roughly 81 percent of its analytic memory floor, while an H100 reaches only 27 percent. Physical-AI decode is memory-dominated, but faster memory does not translate into proportional latency gains. We test the missing term with a CUDA Graphs A/B experiment. On H100 at ctx=2048, CUDA Graphs improves decode latency by 1.259x across N=10 fresh sessions, with a 95 percent bootstrap confidence interval of 1.253 to 1.267. On L4, the same intervention gives only 1.028x. This isolates a launch-side overhead that becomes visible on fast GPUs but remains mostly hidden on slower, bandwidth-bound GPUs. The deployment implication is that memory savings matter only when the runtime realises them. On L4, bf16 decode sits close to the memory floor, but common quantised paths do not recover the expected 4x weight-traffic reduction: bnb-nf4 reaches 59.36 ms/step and AutoAWQ+Marlin reaches 45.24 ms/step from a 62.32 ms bf16 baseline. GPTQ+ExLlamaV2, with Ada-tuned int4 kernels, reaches 17.36 ms/step.