ChatPaper.aiChatPaper

Kernel-Smith: Uma Receita Unificada para Otimização Evolutiva de Kernels

Kernel-Smith: A Unified Recipe for Evolutionary Kernel Optimization

March 30, 2026
Autores: He Du, Qiming Ge, Jiakai Hu, Aijun Yang, Zheng Cai, Zixian Huang, Sheng Yuan, Qinxiu Cheng, Xinchen Xie, Yicheng Chen, Yining Li, Jiaxing Xie, Huanan Dong, Yaguang Wu, Xiangjun Huang, Jian Yang, Hui Wang, Bowen Zhou, Bowen Li, Qipeng Guo, Kai Chen
cs.AI

Resumo

Apresentamos o Kernel-Smith, uma estrutura para geração de kernels e operadores de alto desempenho em GPU que combina um agente evolutivo estável orientado por avaliação com uma receita de pós-treinamento orientada para a evolução. No lado do agente, o Kernel-Smith mantém uma população de candidatos executáveis e os melhora iterativamente usando um arquivo de programas de alto desempenho e diversificados, juntamente com *feedback* de execução estruturado sobre compilação, correção e aceleração. Para tornar essa busca confiável, construímos serviços de avaliação específicos para *backends*: Triton em GPUs NVIDIA e Maca em GPUs MetaX. No lado do treinamento, convertemos trajetórias de evolução de longo prazo em supervisão centrada em etapas e sinais de aprendizado por reforço, retendo revisões que preservam a correção e oferecem alto ganho, de modo que o modelo é otimizado como um forte aprimorador local dentro do ciclo evolutivo, e não como um gerador único. Sob um protocolo evolutivo unificado, o Kernel-Smith-235B-RL alcança o melhor desempenho geral no KernelBench com o *backend* Nvidia Triton, obtendo a melhor taxa média de aceleração e superando modelos proprietários de ponta, incluindo Gemini-3.0-pro e Claude-4.6-opus. Validamos ainda mais a estrutura no *backend* MetaX MACA, onde nosso Kernel-Smith-MACA-30B supera contrapartes de grande escala, como DeepSeek-V3.2-think e Qwen3-235B-2507-think, destacando o potencial para adaptação contínua em plataformas heterogêneas. Para além dos resultados de *benchmarks*, o mesmo fluxo de trabalho produz contribuições a montante para sistemas de produção, incluindo SGLang e LMDeploy, demonstrando que a otimização de *kernels* orientada por LLM pode ser transferida da avaliação controlada para a implantação prática.
English
We present Kernel-Smith, a framework for high-performance GPU kernel and operator generation that combines a stable evaluation-driven evolutionary agent with an evolution-oriented post-training recipe. On the agent side, Kernel-Smith maintains a population of executable candidates and iteratively improves them using an archive of top-performing and diverse programs together with structured execution feedback on compilation, correctness, and speedup. To make this search reliable, we build backend-specific evaluation services for Triton on NVIDIA GPUs and Maca on MetaX GPUs. On the training side, we convert long-horizon evolution trajectories into step-centric supervision and reinforcement learning signals by retaining correctness-preserving, high-gain revisions, so that the model is optimized as a strong local improver inside the evolutionary loop rather than as a one-shot generator. Under a unified evolutionary protocol, Kernel-Smith-235B-RL achieves state-of-the-art overall performance on KernelBench with Nvidia Triton backend, attaining the best average speedup ratio and outperforming frontier proprietary models including Gemini-3.0-pro and Claude-4.6-opus. We further validate the framework on the MetaX MACA backend, where our Kernel-Smith-MACA-30B surpasses large-scale counterparts such as DeepSeek-V3.2-think and Qwen3-235B-2507-think, highlighting potential for seamless adaptation across heterogeneous platforms. Beyond benchmark results, the same workflow produces upstream contributions to production systems including SGLang and LMDeploy, demonstrating that LLM-driven kernel optimization can transfer from controlled evaluation to practical deployment.
PDF262April 17, 2026