ChatPaper.aiChatPaper

커널-스미스: 진화적 커널 최적화를 위한 통합 방법론

Kernel-Smith: A Unified Recipe for Evolutionary Kernel Optimization

March 30, 2026
저자: He Du, Qiming Ge, Jiakai Hu, Aijun Yang, Zheng Cai, Zixian Huang, Sheng Yuan, Qinxiu Cheng, Xinchen Xie, Yicheng Chen, Yining Li, Jiaxing Xie, Huanan Dong, Yaguang Wu, Xiangjun Huang, Jian Yang, Hui Wang, Bowen Zhou, Bowen Li, Qipeng Guo, Kai Chen
cs.AI

초록

우리는 고성능 GPU 커널 및 연산자 생성 프레임워크인 Kernel-Smith를 제안한다. 본 프레임워크는 안정적인 평가 기반 진화 에이전트와 진화 지향 사후 훈련 레시피를 결합하였다. 에이전트 측면에서 Kernel-Smith는 실행 가능한 후보 프로그램 집단을 유지하며, 최고 성능 및 다양한 프로그램 아카이브와 컴파일, 정확성, 속도 향상에 대한 구조화된 실행 피드백을 활용하여 이를 반복적으로 개선한다. 이러한 탐색 과정의 신뢰성을 위해 NVIDIA GPU의 Triton과 MetaX GPU의 Maca를 위한 백엔드별 평가 서비스를 구축하였다. 훈련 측면에서는 장기 진화 궤적을 단계 중심 지도 및 강화 학습 신호로 변환하는데, 정확성을 유지하면서 높은 성능 향상을 보인 수정 사항들을 보존함으로써 모델이 일회성 생성기가 아닌 진화 루프 내 강력한 지역 개선자로 최적화되도록 한다. 통합 진화 프로토콜 하에서 Kernel-Smith-235B-RL은 Nvidia Triton 백엔드 기반 KernelBench에서 최첨단 종합 성능을 달성하였으며, 최고의 평균 속도 향상 비율을 기록하고 Gemini-3.0-pro 및 Claude-4.6-opus를 포함한 최신 독점 모델들을 능가하였다. 또한 MetaX MACA 백엔드에서 프레임워크를 추가 검증한 결과, 우리의 Kernel-Smith-MACA-30B는 DeepSeek-V3.2-think 및 Qwen3-235B-2507-think와 같은 대규모 대조 모델을 초과하여 이기종 플랫폼 간 원활한 적용 가능성을 입증하였다. 벤치마크 결과를 넘어, 동일한 워크플로우는 SGLang 및 LMDeploy와 같은 프로덕션 시스템에 대한 업스트림 기여로 이어져, LLM 기반 커널 최적화가 통제된 평가 환경에서 실전 배치 환경으로 전환될 수 있음을 보여준다.
English
We present Kernel-Smith, a framework for high-performance GPU kernel and operator generation that combines a stable evaluation-driven evolutionary agent with an evolution-oriented post-training recipe. On the agent side, Kernel-Smith maintains a population of executable candidates and iteratively improves them using an archive of top-performing and diverse programs together with structured execution feedback on compilation, correctness, and speedup. To make this search reliable, we build backend-specific evaluation services for Triton on NVIDIA GPUs and Maca on MetaX GPUs. On the training side, we convert long-horizon evolution trajectories into step-centric supervision and reinforcement learning signals by retaining correctness-preserving, high-gain revisions, so that the model is optimized as a strong local improver inside the evolutionary loop rather than as a one-shot generator. Under a unified evolutionary protocol, Kernel-Smith-235B-RL achieves state-of-the-art overall performance on KernelBench with Nvidia Triton backend, attaining the best average speedup ratio and outperforming frontier proprietary models including Gemini-3.0-pro and Claude-4.6-opus. We further validate the framework on the MetaX MACA backend, where our Kernel-Smith-MACA-30B surpasses large-scale counterparts such as DeepSeek-V3.2-think and Qwen3-235B-2507-think, highlighting potential for seamless adaptation across heterogeneous platforms. Beyond benchmark results, the same workflow produces upstream contributions to production systems including SGLang and LMDeploy, demonstrating that LLM-driven kernel optimization can transfer from controlled evaluation to practical deployment.
PDF151April 1, 2026