FastKernels : Analyse comparative de la génération de noyaux GPU en production

Résumé

Les agents basés sur des LLM pour la génération de noyaux GPU progressent rapidement, mais leur avancée est fondamentalement contrainte par les benchmarks qu'ils optimisent. Les benchmarks existants sont mal alignés avec les cadres d'inférence de production : ils évaluent les noyaux sur un seul GPU avec des entrées synthétiques, ignorent la pile de compilation environnante et récompensent la reproduction d'optimisations connues plutôt que la découverte de nouvelles. Les signaux de récompense qui en résultent sont trompeurs : les agents apprennent à générer des noyaux qui obtiennent de bons scores dans des environnements sandbox, mais introduisent des incompatibilités d'interface, des conflits avec la pile de compilation et une dégradation silencieuse de l'exactitude lors de l'intégration dans des systèmes réels. Nous présentons FastKernels, un benchmark de noyaux construit autour d'un ensemble minimal de 46 architectures représentatives couvrant 8 catégories, dont les noyaux englobent collectivement ceux de 96,2 % (409/425) des architectures HuggingFace Transformers. FastKernels fait également office de cadre d'inférence de qualité production minimaliste, qui fonctionne à parité avec des systèmes robustes tels que vLLM et SGLang pour le service de LLM grand public, et dépasse largement les références amont sur les architectures mal desservies ; l'interface de chaque tâche reflète le module correspondant dans la bibliothèque à l'état de l'art pour sa famille d'architectures, permettant un déploiement direct des noyaux optimisés dans les bases de code de production. En évaluant les agents de noyaux de pointe sur FastKernels, nous constatons que même l'agent le plus performant n'obtient qu'une accélération globale de 0,94 fois par rapport aux références de production, les agents les plus faibles atteignant 0,78 fois et 0,53 fois — ce qui confirme que le désalignement entre benchmarks et production constitue un goulot d'étranglement critique pour le domaine. Nous publions FastKernels comme un tremplin vers des agents de noyaux dont les gains sur les benchmarks se traduisent directement en améliorations de débit en production. Le code est disponible à l'adresse https://github.com/Snowflake-AI-Research/fastkernels.

English

LLM-based agents for GPU kernel generation are advancing rapidly, yet their progress is fundamentally constrained by the benchmarks they optimize against. Existing benchmarks are poorly aligned with production inference frameworks: they evaluate kernels on a single GPU with synthetic inputs, ignore the surrounding compilation stack, and reward replicating known optimizations rather than discovering new ones. The resulting reward signals are misleading: agents learn to generate kernels that score well in sandboxes but introduce interface incompatibilities, compilation-stack conflicts, and silent correctness degradation when integrated into real systems. We introduce FastKernels, a kernel benchmark built around a minimal set of 46 representative architectures spanning 8 categories, whose kernels collectively subsume those of 96.2% (409/425) of HuggingFace Transformers architectures. FastKernels doubles as a minimalistic, production-grade inference framework that runs at parity with hardened systems such as vLLM and SGLang on mainstream LLM serving and substantially exceeds upstream references on under-served architectures; each task's interface mirrors the corresponding module in the state-of-the-art library for its architecture family, enabling direct deployment of optimized kernels into production codebases. Evaluating state-of-the-art kernel agents on FastKernels, we find that even the strongest agent achieves only 0.94times aggregate speedup over production baselines, with weaker agents at 0.78times and 0.53times -- confirming that benchmark-production misalignment is a critical bottleneck for the field. We release FastKernels as a stepping stone toward kernel agents whose benchmark gains translate directly into production throughput improvements. Code is available at https://github.com/Snowflake-AI-Research/fastkernels