FastKernels: Evaluación Comparativa de la Generación de Kernels de GPU en Producción

Resumen

Los agentes basados en LLM para la generación de kernels de GPU avanzan rápidamente, pero su progreso está fundamentalmente limitado por los benchmarks que optimizan. Los benchmarks existentes están poco alineados con los frameworks de inferencia en producción: evalúan kernels en una sola GPU con entradas sintéticas, ignoran el stack de compilación circundante y recompensan replicar optimizaciones conocidas en lugar de descubrir nuevas. Las señales de recompensa resultantes son engañosas: los agentes aprenden a generar kernels que obtienen buenos puntajes en entornos aislados, pero introducen incompatibilidades de interfaz, conflictos en el stack de compilación y degradación silenciosa de la corrección cuando se integran en sistemas reales. Presentamos FastKernels, un benchmark de kernels construido en torno a un conjunto mínimo de 46 arquitecturas representativas que abarcan 8 categorías, cuyos kernels en conjunto subsumen el 96.2% (409/425) de las arquitecturas de HuggingFace Transformers. FastKernels también funciona como un framework de inferencia minimalista de grado de producción que opera a la par de sistemas robustos como vLLM y SGLang en el servicio de LLM convencional y supera significativamente las referencias ascendentes en arquitecturas menos atendidas; la interfaz de cada tarea refleja el módulo correspondiente en la librería de última generación para su familia de arquitecturas, lo que permite el despliegue directo de kernels optimizados en bases de código de producción. Al evaluar agentes de kernels de última generación en FastKernels, encontramos que incluso el agente más fuerte logra solo una aceleración agregada de 0.94 veces sobre las líneas base de producción, con agentes más débiles en 0.78 y 0.53 veces, lo que confirma que el desajuste entre benchmark y producción es un cuello de botella crítico para el campo. Publicamos FastKernels como un trampolín hacia agentes de kernels cuyas ganancias en benchmarks se traduzcan directamente en mejoras de rendimiento en producción. El código está disponible en https://github.com/Snowflake-AI-Research/fastkernels

English

LLM-based agents for GPU kernel generation are advancing rapidly, yet their progress is fundamentally constrained by the benchmarks they optimize against. Existing benchmarks are poorly aligned with production inference frameworks: they evaluate kernels on a single GPU with synthetic inputs, ignore the surrounding compilation stack, and reward replicating known optimizations rather than discovering new ones. The resulting reward signals are misleading: agents learn to generate kernels that score well in sandboxes but introduce interface incompatibilities, compilation-stack conflicts, and silent correctness degradation when integrated into real systems. We introduce FastKernels, a kernel benchmark built around a minimal set of 46 representative architectures spanning 8 categories, whose kernels collectively subsume those of 96.2% (409/425) of HuggingFace Transformers architectures. FastKernels doubles as a minimalistic, production-grade inference framework that runs at parity with hardened systems such as vLLM and SGLang on mainstream LLM serving and substantially exceeds upstream references on under-served architectures; each task's interface mirrors the corresponding module in the state-of-the-art library for its architecture family, enabling direct deployment of optimized kernels into production codebases. Evaluating state-of-the-art kernel agents on FastKernels, we find that even the strongest agent achieves only 0.94times aggregate speedup over production baselines, with weaker agents at 0.78times and 0.53times -- confirming that benchmark-production misalignment is a critical bottleneck for the field. We release FastKernels as a stepping stone toward kernel agents whose benchmark gains translate directly into production throughput improvements. Code is available at https://github.com/Snowflake-AI-Research/fastkernels