Kernel-Smith: Универсальный рецепт для эволюционной оптимизации ядер
Kernel-Smith: A Unified Recipe for Evolutionary Kernel Optimization
March 30, 2026
Авторы: He Du, Qiming Ge, Jiakai Hu, Aijun Yang, Zheng Cai, Zixian Huang, Sheng Yuan, Qinxiu Cheng, Xinchen Xie, Yicheng Chen, Yining Li, Jiaxing Xie, Huanan Dong, Yaguang Wu, Xiangjun Huang, Jian Yang, Hui Wang, Bowen Zhou, Bowen Li, Qipeng Guo, Kai Chen
cs.AI
Аннотация
Мы представляем Kernel-Smith — фреймворк для высокопроизводительной генерации GPU-ядрер и операторов, который сочетает стабильного эволюционного агента с оценкой и рецепт пост-обработки, ориентированный на эволюцию. Со стороны агента Kernel-Smith поддерживает популяцию исполняемых кандидатов и итеративно улучшает их, используя архив лучших и разнообразных программ вместе со структурированной обратной связью по выполнению, касающейся компиляции, корректности и ускорения. Чтобы сделать этот поиск надежным, мы создали сервисы оценки для конкретных бэкендов: Triton для GPU NVIDIA и Maca для GPU MetaX. Со стороны обучения мы преобразуем долгосрочные траектории эволюции в пошаговые сигналы обучения с учителем и с подкреплением, сохраняя правки, сохраняющие корректность и дающие высокий прирост производительности, так что модель оптимизируется как мощный локальный улучшатель внутри эволюционного цикла, а не как одношаговый генератор. В рамках единого эволюционного протокола Kernel-Smith-235B-RL демонстрирует наилучшую общую производительность на KernelBench с бэкендом Nvidia Triton, достигая наилучшего среднего коэффициента ускорения и превосходя передовые проприетарные модели, включая Gemini-3.0-pro и Claude-4.6-opus. Мы дополнительно проверяем фреймворк на бэкенде MetaX MACA, где наша модель Kernel-Smith-MACA-30B превосходит крупномасштабные аналоги, такие как DeepSeek-V3.2-think и Qwen3-235B-2507-think, что подчеркивает потенциал для бесшовной адаптации на гетерогенных платформах. Помимо результатов бенчмарков, тот же рабочий процесс вносит вклад в развитие производственных систем, включая SGLang и LMDeploy, демонстрируя, что оптимизация ядер, управляемая большими языковыми моделями, может переходить от контролируемой оценки к практическому развертыванию.
English
We present Kernel-Smith, a framework for high-performance GPU kernel and operator generation that combines a stable evaluation-driven evolutionary agent with an evolution-oriented post-training recipe. On the agent side, Kernel-Smith maintains a population of executable candidates and iteratively improves them using an archive of top-performing and diverse programs together with structured execution feedback on compilation, correctness, and speedup. To make this search reliable, we build backend-specific evaluation services for Triton on NVIDIA GPUs and Maca on MetaX GPUs. On the training side, we convert long-horizon evolution trajectories into step-centric supervision and reinforcement learning signals by retaining correctness-preserving, high-gain revisions, so that the model is optimized as a strong local improver inside the evolutionary loop rather than as a one-shot generator. Under a unified evolutionary protocol, Kernel-Smith-235B-RL achieves state-of-the-art overall performance on KernelBench with Nvidia Triton backend, attaining the best average speedup ratio and outperforming frontier proprietary models including Gemini-3.0-pro and Claude-4.6-opus. We further validate the framework on the MetaX MACA backend, where our Kernel-Smith-MACA-30B surpasses large-scale counterparts such as DeepSeek-V3.2-think and Qwen3-235B-2507-think, highlighting potential for seamless adaptation across heterogeneous platforms. Beyond benchmark results, the same workflow produces upstream contributions to production systems including SGLang and LMDeploy, demonstrating that LLM-driven kernel optimization can transfer from controlled evaluation to practical deployment.