FastKernels: Benchmarking de Geração de Kernels GPU em Produção
FastKernels: Benchmarking GPU Kernel Generation in Production
May 22, 2026
Autores: Gabriele Oliaro, Yichao Fu, May Jiang, Owen Lu, Junli Wang, Zhihao Jia, Hao Zhang, Samyam Rajbhandari
cs.AI
Resumo
Agentes baseados em LLM para geração de kernels de GPU estão avançando rapidamente, porém seu progresso é fundamentalmente limitado pelos benchmarks que otimizam. Os benchmarks atuais estão mal alinhados com frameworks de inferência em produção: avaliam kernels em uma única GPU com entradas sintéticas, ignoram a pilha de compilação circundante e recompensam a replicação de otimizações conhecidas em vez da descoberta de novas. Os sinais de recompensa resultantes são enganosos: os agentes aprendem a gerar kernels que pontuam bem em ambientes isolados, mas introduzem incompatibilidades de interface, conflitos na pilha de compilação e degradação silenciosa de corretude ao serem integrados em sistemas reais. Apresentamos o FastKernels, um benchmark de kernels construído em torno de um conjunto mínimo de 46 arquiteturas representativas abrangendo 8 categorias, cujos kernels coletivamente subsomem 96,2% (409/425) das arquiteturas do HuggingFace Transformers. O FastKernels também funciona como um framework de inferência minimalista de nível de produção que opera em paridade com sistemas consolidados como vLLM e SGLang na execução mainstream de LLMs e supera substancialmente as referências upstream em arquiteturas menos atendidas; a interface de cada tarefa espelha o módulo correspondente na biblioteca de última geração de sua família de arquitetura, permitindo a implantação direta de kernels otimizados em bases de código de produção. Avaliando agentes de kernels de última geração no FastKernels, constatamos que mesmo o agente mais forte atinge apenas um ganho agregado de 0,94 vezes em relação às linhas de base de produção, com agentes mais fracos em 0,78 e 0,53 vezes — confirmando que o desalinhamento entre benchmark e produção é um gargalo crítico para a área. Lançamos o FastKernels como um trampolim para agentes de kernels cujos ganhos em benchmark se traduzam diretamente em melhorias de throughput em produção. O código está disponível em https://github.com/Snowflake-AI-Research/fastkernels
English
LLM-based agents for GPU kernel generation are advancing rapidly, yet their progress is fundamentally constrained by the benchmarks they optimize against. Existing benchmarks are poorly aligned with production inference frameworks: they evaluate kernels on a single GPU with synthetic inputs, ignore the surrounding compilation stack, and reward replicating known optimizations rather than discovering new ones. The resulting reward signals are misleading: agents learn to generate kernels that score well in sandboxes but introduce interface incompatibilities, compilation-stack conflicts, and silent correctness degradation when integrated into real systems. We introduce FastKernels, a kernel benchmark built around a minimal set of 46 representative architectures spanning 8 categories, whose kernels collectively subsume those of 96.2% (409/425) of HuggingFace Transformers architectures. FastKernels doubles as a minimalistic, production-grade inference framework that runs at parity with hardened systems such as vLLM and SGLang on mainstream LLM serving and substantially exceeds upstream references on under-served architectures; each task's interface mirrors the corresponding module in the state-of-the-art library for its architecture family, enabling direct deployment of optimized kernels into production codebases. Evaluating state-of-the-art kernel agents on FastKernels, we find that even the strongest agent achieves only 0.94times aggregate speedup over production baselines, with weaker agents at 0.78times and 0.53times -- confirming that benchmark-production misalignment is a critical bottleneck for the field. We release FastKernels as a stepping stone toward kernel agents whose benchmark gains translate directly into production throughput improvements. Code is available at https://github.com/Snowflake-AI-Research/fastkernels