カーネル・スミス:進化的カーネル最適化の統合的レシピ
Kernel-Smith: A Unified Recipe for Evolutionary Kernel Optimization
March 30, 2026
著者: He Du, Qiming Ge, Jiakai Hu, Aijun Yang, Zheng Cai, Zixian Huang, Sheng Yuan, Qinxiu Cheng, Xinchen Xie, Yicheng Chen, Yining Li, Jiaxing Xie, Huanan Dong, Yaguang Wu, Xiangjun Huang, Jian Yang, Hui Wang, Bowen Zhou, Bowen Li, Qipeng Guo, Kai Chen
cs.AI
要旨
本論文では、高性能GPUカーネルおよび演算子生成のためのフレームワーク「Kernel-Smith」を提案する。本フレームワークは、安定した評価駆動型進化エージェントと、進化指向のポストトレーニング手法を組み合わせたものである。エージェント側では、実行可能な候補群を維持し、高性能かつ多様なプログラムのアーカイブと、コンパイル、正確性、高速化に関する構造化された実行フィードバックを用いて、それらを反復的に改善する。この探索を確実にするため、NVIDIA GPU上のTritonおよびMetaX GPU上のMaca向けに、バックエンド固有の評価サービスを構築した。トレーニング側では、長期的な進化の軌跡を、正確性を保持し高利益をもたらす修正を保持することで、ステップ中心の教師あり学習および強化学習の信号に変換する。これにより、モデルは単発生成器としてではなく、進化ループ内での強力な局所的改善器として最適化される。統一された進化プロトコルの下で、Kernel-Smith-235B-RLは、Nvidia Tritonバックエンドを用いたKernelBenchにおいて、最高の平均高速化率を達成し、Gemini-3.0-proやClaude-4.6-opusといった最先端のプロプライエタリモデルを上回る、State-of-the-Artの総合性能を達成した。さらに、MetaX MACAバックエンドにおいても本フレームワークを検証し、我々のKernel-Smith-MACA-30Bが、DeepSeek-V3.2-thinkやQwen3-235B-2507-thinkといった大規模モデルを凌駕し、異種プラットフォーム間でのシームレスな適応の可能性を示した。ベンチマーク結果を超えて、同じワークフローは、SGLangやLMDeployといったプロダクションシステムへのアップストリーム貢献も生み出しており、LLM駆動のカーネル最適化が制御された評価から実用的なデプロイメントへ移行できることを実証している。
English
We present Kernel-Smith, a framework for high-performance GPU kernel and operator generation that combines a stable evaluation-driven evolutionary agent with an evolution-oriented post-training recipe. On the agent side, Kernel-Smith maintains a population of executable candidates and iteratively improves them using an archive of top-performing and diverse programs together with structured execution feedback on compilation, correctness, and speedup. To make this search reliable, we build backend-specific evaluation services for Triton on NVIDIA GPUs and Maca on MetaX GPUs. On the training side, we convert long-horizon evolution trajectories into step-centric supervision and reinforcement learning signals by retaining correctness-preserving, high-gain revisions, so that the model is optimized as a strong local improver inside the evolutionary loop rather than as a one-shot generator. Under a unified evolutionary protocol, Kernel-Smith-235B-RL achieves state-of-the-art overall performance on KernelBench with Nvidia Triton backend, attaining the best average speedup ratio and outperforming frontier proprietary models including Gemini-3.0-pro and Claude-4.6-opus. We further validate the framework on the MetaX MACA backend, where our Kernel-Smith-MACA-30B surpasses large-scale counterparts such as DeepSeek-V3.2-think and Qwen3-235B-2507-think, highlighting potential for seamless adaptation across heterogeneous platforms. Beyond benchmark results, the same workflow produces upstream contributions to production systems including SGLang and LMDeploy, demonstrating that LLM-driven kernel optimization can transfer from controlled evaluation to practical deployment.