FastKernels: Benchmarking der GPU-Kernel-Generierung in der Produktion

Zusammenfassung

LLM-basierte Agenten zur GPU-Kernel-Generierung entwickeln sich rasant weiter, doch ihr Fortschritt wird grundlegend durch die Benchmarks eingeschränkt, die sie optimieren. Vorhandene Benchmarks sind nur schlecht auf Produktions-Inferenz-Frameworks abgestimmt: Sie bewerten Kernel auf einer einzelnen GPU mit synthetischen Eingaben, ignorieren den umgebenden Kompilierungs-Stack und belohnen eher das Nachbilden bekannter Optimierungen als das Entdecken neuer. Die daraus resultierenden Belohnungssignale sind irreführend: Agenten lernen, Kernel zu generieren, die in Sandboxen gut abschneiden, aber bei der Integration in reale Systeme zu Schnittstelleninkompatibilitäten, Konflikten mit dem Kompilierungs-Stack und stillen Korrektheitsverschlechterungen führen. Wir stellen FastKernels vor, einen Kernel-Benchmark, der auf einem minimalen Satz von 46 repräsentativen Architekturen aus 8 Kategorien basiert, deren Kernel gemeinsam diejenigen von 96,2 % (409/425) der HuggingFace-Transformers-Architekturen umfassen. FastKernels fungiert gleichzeitig als minimalistisches, produktionsreifes Inferenz-Framework, das auf dem Niveau etablierter Systeme wie vLLM und SGLang bei der Ausführung gängiger LLM-Inferenz läuft und unterversorgte Architekturen deutlich über die zugehörigen Referenzimplementierungen hinaus beschleunigt. Die Schnittstelle jeder Aufgabe spiegelt das entsprechende Modul in der jeweils führenden Bibliothek für ihre Architekturfamilie wider, sodass optimierte Kernel direkt in produktive Codebasen integriert werden können. Bei der Evaluierung moderner Kernel-Agenten auf FastKernels erzielt selbst der stärkste Agent nur eine aggregierte Beschleunigung von 0,94× gegenüber Produktionsbaselines, während schwächere Agenten auf 0,78× bzw. 0,53× kommen – was bestätigt, dass die Diskrepanz zwischen Benchmark und Produktion ein entscheidender Engpass für das Feld ist. Wir veröffentlichen FastKernels als Grundlage für Kernel-Agenten, deren Benchmark-Gewinne sich direkt in Produktionsdurchsatzsteigerungen übersetzen lassen. Der Code ist verfügbar unter https://github.com/Snowflake-AI-Research/fastkernels.

English

LLM-based agents for GPU kernel generation are advancing rapidly, yet their progress is fundamentally constrained by the benchmarks they optimize against. Existing benchmarks are poorly aligned with production inference frameworks: they evaluate kernels on a single GPU with synthetic inputs, ignore the surrounding compilation stack, and reward replicating known optimizations rather than discovering new ones. The resulting reward signals are misleading: agents learn to generate kernels that score well in sandboxes but introduce interface incompatibilities, compilation-stack conflicts, and silent correctness degradation when integrated into real systems. We introduce FastKernels, a kernel benchmark built around a minimal set of 46 representative architectures spanning 8 categories, whose kernels collectively subsume those of 96.2% (409/425) of HuggingFace Transformers architectures. FastKernels doubles as a minimalistic, production-grade inference framework that runs at parity with hardened systems such as vLLM and SGLang on mainstream LLM serving and substantially exceeds upstream references on under-served architectures; each task's interface mirrors the corresponding module in the state-of-the-art library for its architecture family, enabling direct deployment of optimized kernels into production codebases. Evaluating state-of-the-art kernel agents on FastKernels, we find that even the strongest agent achieves only 0.94times aggregate speedup over production baselines, with weaker agents at 0.78times and 0.53times -- confirming that benchmark-production misalignment is a critical bottleneck for the field. We release FastKernels as a stepping stone toward kernel agents whose benchmark gains translate directly into production throughput improvements. Code is available at https://github.com/Snowflake-AI-Research/fastkernels