FastKernels: Benchmarking van GPU-kernelgeneratie in productie

Samenvatting

LLM-gebaseerde agenten voor GPU-kernelgeneratie ontwikkelen zich snel, maar hun vooruitgang wordt fundamenteel beperkt door de benchmarks waartegen ze optimaliseren. Bestaande benchmarks sluiten slecht aan bij productie-inferentieframeworks: ze evalueren kernels op één enkele GPU met synthetische invoer, negeren de omliggende compilatiestack en belonen het repliceren van bekende optimalisaties in plaats van het ontdekken van nieuwe. De resulterende beloningssignalen zijn misleidend: agenten leren kernels te genereren die goed scoren in sandboxen, maar interface-incompatibiliteiten, compilatiestackconflicten en stille correctheidsverslechtering introduceren wanneer ze worden geïntegreerd in echte systemen. We introduceren FastKernels, een kernelbenchmark opgebouwd rond een minimale set van 46 representatieve architecturen verdeeld over 8 categorieën, waarvan de kernels gezamenlijk die van 96,2% (409/425) van de HuggingFace Transformers-architecturen overkoepelen. FastKernels fungeert tevens als een minimalistisch, productiegericht inferentieframework dat op gelijke voet presteert met geharde systemen zoals vLLM en SGLang bij mainstream LLM-serving, en aanzienlijk beter presteert dan upstream-referenties voor onderbediende architecturen; de interface van elke taak weerspiegelt de corresponderende module in de state-of-the-art-bibliotheek voor zijn architectuurfamilie, wat directe implementatie van geoptimaliseerde kernels in productiecodebases mogelijk maakt. Door state-of-the-art kernelagenten op FastKernels te evalueren, constateren we dat zelfs de sterkste agent slechts een totale versnelling van 0,94 keer behaalt ten opzichte van productiebaselines, terwijl zwakkere agenten 0,78 keer en 0,53 keer halen – wat bevestigt dat benchmark-productie-misalignatie een kritieke bottleneck is voor het veld. We brengen FastKernels uit als een opstap naar kernelagenten waarvan de benchmarkwinsten direct vertaald worden in productiedoorvoerverbeteringen. Code is beschikbaar op https://github.com/Snowflake-AI-Research/fastkernels

English

LLM-based agents for GPU kernel generation are advancing rapidly, yet their progress is fundamentally constrained by the benchmarks they optimize against. Existing benchmarks are poorly aligned with production inference frameworks: they evaluate kernels on a single GPU with synthetic inputs, ignore the surrounding compilation stack, and reward replicating known optimizations rather than discovering new ones. The resulting reward signals are misleading: agents learn to generate kernels that score well in sandboxes but introduce interface incompatibilities, compilation-stack conflicts, and silent correctness degradation when integrated into real systems. We introduce FastKernels, a kernel benchmark built around a minimal set of 46 representative architectures spanning 8 categories, whose kernels collectively subsume those of 96.2% (409/425) of HuggingFace Transformers architectures. FastKernels doubles as a minimalistic, production-grade inference framework that runs at parity with hardened systems such as vLLM and SGLang on mainstream LLM serving and substantially exceeds upstream references on under-served architectures; each task's interface mirrors the corresponding module in the state-of-the-art library for its architecture family, enabling direct deployment of optimized kernels into production codebases. Evaluating state-of-the-art kernel agents on FastKernels, we find that even the strongest agent achieves only 0.94times aggregate speedup over production baselines, with weaker agents at 0.78times and 0.53times -- confirming that benchmark-production misalignment is a critical bottleneck for the field. We release FastKernels as a stepping stone toward kernel agents whose benchmark gains translate directly into production throughput improvements. Code is available at https://github.com/Snowflake-AI-Research/fastkernels