FastKernels: Benchmarking de Geração de Kernels GPU em Produção

Resumo

Agentes baseados em LLM para geração de kernels de GPU estão avançando rapidamente, porém seu progresso é fundamentalmente limitado pelos benchmarks que otimizam. Os benchmarks atuais estão mal alinhados com frameworks de inferência em produção: avaliam kernels em uma única GPU com entradas sintéticas, ignoram a pilha de compilação circundante e recompensam a replicação de otimizações conhecidas em vez da descoberta de novas. Os sinais de recompensa resultantes são enganosos: os agentes aprendem a gerar kernels que pontuam bem em ambientes isolados, mas introduzem incompatibilidades de interface, conflitos na pilha de compilação e degradação silenciosa de corretude ao serem integrados em sistemas reais. Apresentamos o FastKernels, um benchmark de kernels construído em torno de um conjunto mínimo de 46 arquiteturas representativas abrangendo 8 categorias, cujos kernels coletivamente subsomem 96,2% (409/425) das arquiteturas do HuggingFace Transformers. O FastKernels também funciona como um framework de inferência minimalista de nível de produção que opera em paridade com sistemas consolidados como vLLM e SGLang na execução mainstream de LLMs e supera substancialmente as referências upstream em arquiteturas menos atendidas; a interface de cada tarefa espelha o módulo correspondente na biblioteca de última geração de sua família de arquitetura, permitindo a implantação direta de kernels otimizados em bases de código de produção. Avaliando agentes de kernels de última geração no FastKernels, constatamos que mesmo o agente mais forte atinge apenas um ganho agregado de 0,94 vezes em relação às linhas de base de produção, com agentes mais fracos em 0,78 e 0,53 vezes — confirmando que o desalinhamento entre benchmark e produção é um gargalo crítico para a área. Lançamos o FastKernels como um trampolim para agentes de kernels cujos ganhos em benchmark se traduzam diretamente em melhorias de throughput em produção. O código está disponível em https://github.com/Snowflake-AI-Research/fastkernels

English

LLM-based agents for GPU kernel generation are advancing rapidly, yet their progress is fundamentally constrained by the benchmarks they optimize against. Existing benchmarks are poorly aligned with production inference frameworks: they evaluate kernels on a single GPU with synthetic inputs, ignore the surrounding compilation stack, and reward replicating known optimizations rather than discovering new ones. The resulting reward signals are misleading: agents learn to generate kernels that score well in sandboxes but introduce interface incompatibilities, compilation-stack conflicts, and silent correctness degradation when integrated into real systems. We introduce FastKernels, a kernel benchmark built around a minimal set of 46 representative architectures spanning 8 categories, whose kernels collectively subsume those of 96.2% (409/425) of HuggingFace Transformers architectures. FastKernels doubles as a minimalistic, production-grade inference framework that runs at parity with hardened systems such as vLLM and SGLang on mainstream LLM serving and substantially exceeds upstream references on under-served architectures; each task's interface mirrors the corresponding module in the state-of-the-art library for its architecture family, enabling direct deployment of optimized kernels into production codebases. Evaluating state-of-the-art kernel agents on FastKernels, we find that even the strongest agent achieves only 0.94times aggregate speedup over production baselines, with weaker agents at 0.78times and 0.53times -- confirming that benchmark-production misalignment is a critical bottleneck for the field. We release FastKernels as a stepping stone toward kernel agents whose benchmark gains translate directly into production throughput improvements. Code is available at https://github.com/Snowflake-AI-Research/fastkernels