Kernel-Smith: Een Uniforme Aanpak voor Evolutionaire Kerneloptimalisatie
Kernel-Smith: A Unified Recipe for Evolutionary Kernel Optimization
March 30, 2026
Auteurs: He Du, Qiming Ge, Jiakai Hu, Aijun Yang, Zheng Cai, Zixian Huang, Sheng Yuan, Qinxiu Cheng, Xinchen Xie, Yicheng Chen, Yining Li, Jiaxing Xie, Huanan Dong, Yaguang Wu, Xiangjun Huang, Jian Yang, Hui Wang, Bowen Zhou, Bowen Li, Qipeng Guo, Kai Chen
cs.AI
Samenvatting
Wij presenteren Kernel-Smith, een raamwerk voor het genereren van hoogwaardige GPU-kernels en operatoren dat een stabiele, evaluatiegestuurde evolutionaire agent combineert met een op evolutie gericht post-trainingsrecept. Aan de agentzijde houdt Kernel-Smith een populatie van uitvoerbare kandidaten bij en verbetert deze iteratief met behulp van een archief van toppresterende en diverse programma's, samen met gestructureerde uitvoeringsfeedback over compilatie, correctheid en snelheidswinst. Om deze zoektocht betrouwbaar te maken, bouwen we backend-specifieke evaluatiediensten voor Triton op NVIDIA GPU's en Maca op MetaX GPU's. Aan de trainingszijde zetten we lange-termijn evolutietrajecten om in stapgerichte supervisie- en reinforcement learning-signalen door correctheid-bewarende revisies met hoge winst te behouden, zodat het model wordt geoptimaliseerd als een sterke lokale verbeteraar binnen de evolutionaire lus in plaats van als een one-shot generator. Onder een uniform evolutionair protocol behaalt Kernel-Smith-235B-RL state-of-the-art algemene prestaties op KernelBench met de Nvidia Triton-backend, met de beste gemiddelde snelheidsverhouding en presteert het beter dan vooraanstaande propriëtaire modellen zoals Gemini-3.0-pro en Claude-4.6-opus. We valideren het raamwerk verder op de MetaX MACA-backend, waar onze Kernel-Smith-MACA-30B grootschalige tegenhangers zoals DeepSeek-V3.2-think en Qwen3-235B-2507-think overtreft, wat het potentieel voor naadloze aanpassing over heterogene platformen benadrukt. Naast benchmarkresultaten levert dezelfde workflow upstream-bijdragen aan productiesystemen zoals SGLang en LMDeploy, wat aantoont dat LLM-gedreven kerneloptimalisatie kan worden overgedragen van gecontroleerde evaluatie naar praktische implementatie.
English
We present Kernel-Smith, a framework for high-performance GPU kernel and operator generation that combines a stable evaluation-driven evolutionary agent with an evolution-oriented post-training recipe. On the agent side, Kernel-Smith maintains a population of executable candidates and iteratively improves them using an archive of top-performing and diverse programs together with structured execution feedback on compilation, correctness, and speedup. To make this search reliable, we build backend-specific evaluation services for Triton on NVIDIA GPUs and Maca on MetaX GPUs. On the training side, we convert long-horizon evolution trajectories into step-centric supervision and reinforcement learning signals by retaining correctness-preserving, high-gain revisions, so that the model is optimized as a strong local improver inside the evolutionary loop rather than as a one-shot generator. Under a unified evolutionary protocol, Kernel-Smith-235B-RL achieves state-of-the-art overall performance on KernelBench with Nvidia Triton backend, attaining the best average speedup ratio and outperforming frontier proprietary models including Gemini-3.0-pro and Claude-4.6-opus. We further validate the framework on the MetaX MACA backend, where our Kernel-Smith-MACA-30B surpasses large-scale counterparts such as DeepSeek-V3.2-think and Qwen3-235B-2507-think, highlighting potential for seamless adaptation across heterogeneous platforms. Beyond benchmark results, the same workflow produces upstream contributions to production systems including SGLang and LMDeploy, demonstrating that LLM-driven kernel optimization can transfer from controlled evaluation to practical deployment.