Kernel-Smith: Uma Receita Unificada para Otimização Evolutiva de Kernels

Resumo

Apresentamos o Kernel-Smith, uma estrutura para geração de kernels e operadores de alto desempenho em GPU que combina um agente evolutivo estável orientado por avaliação com uma receita de pós-treinamento orientada para a evolução. No lado do agente, o Kernel-Smith mantém uma população de candidatos executáveis e os melhora iterativamente usando um arquivo de programas de alto desempenho e diversificados, juntamente com *feedback* de execução estruturado sobre compilação, correção e aceleração. Para tornar essa busca confiável, construímos serviços de avaliação específicos para *backends*: Triton em GPUs NVIDIA e Maca em GPUs MetaX. No lado do treinamento, convertemos trajetórias de evolução de longo prazo em supervisão centrada em etapas e sinais de aprendizado por reforço, retendo revisões que preservam a correção e oferecem alto ganho, de modo que o modelo é otimizado como um forte aprimorador local dentro do ciclo evolutivo, e não como um gerador único. Sob um protocolo evolutivo unificado, o Kernel-Smith-235B-RL alcança o melhor desempenho geral no KernelBench com o *backend* Nvidia Triton, obtendo a melhor taxa média de aceleração e superando modelos proprietários de ponta, incluindo Gemini-3.0-pro e Claude-4.6-opus. Validamos ainda mais a estrutura no *backend* MetaX MACA, onde nosso Kernel-Smith-MACA-30B supera contrapartes de grande escala, como DeepSeek-V3.2-think e Qwen3-235B-2507-think, destacando o potencial para adaptação contínua em plataformas heterogêneas. Para além dos resultados de *benchmarks*, o mesmo fluxo de trabalho produz contribuições a montante para sistemas de produção, incluindo SGLang e LMDeploy, demonstrando que a otimização de *kernels* orientada por LLM pode ser transferida da avaliação controlada para a implantação prática.

English

We present Kernel-Smith, a framework for high-performance GPU kernel and operator generation that combines a stable evaluation-driven evolutionary agent with an evolution-oriented post-training recipe. On the agent side, Kernel-Smith maintains a population of executable candidates and iteratively improves them using an archive of top-performing and diverse programs together with structured execution feedback on compilation, correctness, and speedup. To make this search reliable, we build backend-specific evaluation services for Triton on NVIDIA GPUs and Maca on MetaX GPUs. On the training side, we convert long-horizon evolution trajectories into step-centric supervision and reinforcement learning signals by retaining correctness-preserving, high-gain revisions, so that the model is optimized as a strong local improver inside the evolutionary loop rather than as a one-shot generator. Under a unified evolutionary protocol, Kernel-Smith-235B-RL achieves state-of-the-art overall performance on KernelBench with Nvidia Triton backend, attaining the best average speedup ratio and outperforming frontier proprietary models including Gemini-3.0-pro and Claude-4.6-opus. We further validate the framework on the MetaX MACA backend, where our Kernel-Smith-MACA-30B surpasses large-scale counterparts such as DeepSeek-V3.2-think and Qwen3-235B-2507-think, highlighting potential for seamless adaptation across heterogeneous platforms. Beyond benchmark results, the same workflow produces upstream contributions to production systems including SGLang and LMDeploy, demonstrating that LLM-driven kernel optimization can transfer from controlled evaluation to practical deployment.

Kernel-Smith: Uma Receita Unificada para Otimização Evolutiva de Kernels

Kernel-Smith: A Unified Recipe for Evolutionary Kernel Optimization

Resumo

Support