Kernel-Smith: Una Receta Unificada para la Optimización Evolutiva de Kernels
Kernel-Smith: A Unified Recipe for Evolutionary Kernel Optimization
March 30, 2026
Autores: He Du, Qiming Ge, Jiakai Hu, Aijun Yang, Zheng Cai, Zixian Huang, Sheng Yuan, Qinxiu Cheng, Xinchen Xie, Yicheng Chen, Yining Li, Jiaxing Xie, Huanan Dong, Yaguang Wu, Xiangjun Huang, Jian Yang, Hui Wang, Bowen Zhou, Bowen Li, Qipeng Guo, Kai Chen
cs.AI
Resumen
Presentamos Kernel-Smith, un marco de trabajo para la generación de alto rendimiento de kernels y operadores en GPU que combina un agente evolutivo estable basado en evaluación con una receta de post-entrenamiento orientada a la evolución. En el lado del agente, Kernel-Smith mantiene una población de candidatos ejecutables y los mejora iterativamente utilizando un archivo de programas de alto rendimiento y diversos, junto con retroalimentación estructurada de ejecución sobre compilación, corrección y aceleración. Para hacer esta búsqueda confiable, construimos servicios de evaluación específicos para el backend: Triton en GPUs de NVIDIA y Maca en GPUs de MetaX. En el lado del entrenamiento, convertimos trayectorias evolutivas de largo horizonte en señales de supervisión centradas en pasos y de aprendizaje por refuerzo, conservando las revisiones que preservan la corrección y ofrecen alta ganancia, de modo que el modelo se optimiza como un mejorador local fuerte dentro del bucle evolutivo, en lugar de como un generador de una sola vez. Bajo un protocolo evolutivo unificado, Kernel-Smith-235B-RL logra un rendimiento general de vanguardia en KernelBench con el backend Nvidia Triton, alcanzando la mejor relación de aceleración promedio y superando a modelos propietarios de frontera como Gemini-3.0-pro y Claude-4.6-opus. Validamos además el marco en el backend MetaX MACA, donde nuestro Kernel-Smith-MACA-30B supera a contrapartes a gran escala como DeepSeek-V3.2-think y Qwen3-235B-2507-think, destacando el potencial de adaptación perfecta entre plataformas heterogéneas. Más allá de los resultados de los puntos de referencia, el mismo flujo de trabajo produce contribuciones ascendentes a sistemas de producción como SGLang y LMDeploy, demostrando que la optimización de kernels impulsada por LLM puede transferirse desde una evaluación controlada a un despliegue práctico.
English
We present Kernel-Smith, a framework for high-performance GPU kernel and operator generation that combines a stable evaluation-driven evolutionary agent with an evolution-oriented post-training recipe. On the agent side, Kernel-Smith maintains a population of executable candidates and iteratively improves them using an archive of top-performing and diverse programs together with structured execution feedback on compilation, correctness, and speedup. To make this search reliable, we build backend-specific evaluation services for Triton on NVIDIA GPUs and Maca on MetaX GPUs. On the training side, we convert long-horizon evolution trajectories into step-centric supervision and reinforcement learning signals by retaining correctness-preserving, high-gain revisions, so that the model is optimized as a strong local improver inside the evolutionary loop rather than as a one-shot generator. Under a unified evolutionary protocol, Kernel-Smith-235B-RL achieves state-of-the-art overall performance on KernelBench with Nvidia Triton backend, attaining the best average speedup ratio and outperforming frontier proprietary models including Gemini-3.0-pro and Claude-4.6-opus. We further validate the framework on the MetaX MACA backend, where our Kernel-Smith-MACA-30B surpasses large-scale counterparts such as DeepSeek-V3.2-think and Qwen3-235B-2507-think, highlighting potential for seamless adaptation across heterogeneous platforms. Beyond benchmark results, the same workflow produces upstream contributions to production systems including SGLang and LMDeploy, demonstrating that LLM-driven kernel optimization can transfer from controlled evaluation to practical deployment.