ChatPaper.aiChatPaper

Kernel-Smith: Ein einheitliches Rezept zur evolutionären Kernel-Optimierung

Kernel-Smith: A Unified Recipe for Evolutionary Kernel Optimization

March 30, 2026
Autoren: He Du, Qiming Ge, Jiakai Hu, Aijun Yang, Zheng Cai, Zixian Huang, Sheng Yuan, Qinxiu Cheng, Xinchen Xie, Yicheng Chen, Yining Li, Jiaxing Xie, Huanan Dong, Yaguang Wu, Xiangjun Huang, Jian Yang, Hui Wang, Bowen Zhou, Bowen Li, Qipeng Guo, Kai Chen
cs.AI

Zusammenfassung

Wir stellen Kernel-Smith vor, einen Rahmen für die Hochleistungsgenerierung von GPU-Kerneln und Operatoren, der einen stabilen, evaluierungsgesteuerten evolutionären Agenten mit einem evolutionsorientierten Nachtrainierungsrezept kombiniert. Auf Seiten des Agenten verwaltet Kernel-Smith eine Population ausführbarer Kandidaten und verbessert diese iterativ unter Verwendung eines Archivs hochleistungsfähiger und diverser Programme zusammen mit strukturierten Ausführungsrückmeldungen zu Kompilierung, Korrektheit und Beschleunigung. Um diese Suche zuverlässig zu gestalten, bauen wir backend-spezifische Evaluierungsdienste für Triton auf NVIDIA GPUs und Maca auf MetaX GPUs. Auf der Trainingsseite wandeln wir langfristige Evolutionstrajektorien in schrittzentrierte Supervisions- und Verstärkungslernsignale um, indem wir korrektheitserhaltende Revisionen mit hohem Gewinn beibehalten, sodass das Modell als starker lokaler Verbesserer innerhalb der evolutionären Schleife optimiert wird und nicht als Einmal-Generator. Unter einem einheitlichen evolutionären Protokoll erzielt Kernel-Smith-235B-RL state-of-the-art Gesamtleistung auf KernelBench mit Nvidia Triton-Backend, erreicht die beste durchschnittliche Beschleunigungsrate und übertrifft führende proprietäre Modelle, einschließlich Gemini-3.0-pro und Claude-4.6-opus. Wir validieren den Rahmen weiter auf dem MetaX MACA-Backend, wo unser Kernel-Smith-MACA-30B großskalige Gegenstücke wie DeepSeek-V3.2-think und Qwen3-235B-2507-think übertrifft, was das Potenzial für nahtlose Anpassung über heterogene Plattformen hinweg unterstreicht. Über Benchmark-Ergebnisse hinaus liefert derselbe Workflow upstream-Beiträge zu Produktionssystemen wie SGLang und LMDeploy, was demonstriert, dass LLM-gestützte Kerneloptimierung von kontrollierter Evaluation auf praktischen Einsatz übertragbar ist.
English
We present Kernel-Smith, a framework for high-performance GPU kernel and operator generation that combines a stable evaluation-driven evolutionary agent with an evolution-oriented post-training recipe. On the agent side, Kernel-Smith maintains a population of executable candidates and iteratively improves them using an archive of top-performing and diverse programs together with structured execution feedback on compilation, correctness, and speedup. To make this search reliable, we build backend-specific evaluation services for Triton on NVIDIA GPUs and Maca on MetaX GPUs. On the training side, we convert long-horizon evolution trajectories into step-centric supervision and reinforcement learning signals by retaining correctness-preserving, high-gain revisions, so that the model is optimized as a strong local improver inside the evolutionary loop rather than as a one-shot generator. Under a unified evolutionary protocol, Kernel-Smith-235B-RL achieves state-of-the-art overall performance on KernelBench with Nvidia Triton backend, attaining the best average speedup ratio and outperforming frontier proprietary models including Gemini-3.0-pro and Claude-4.6-opus. We further validate the framework on the MetaX MACA backend, where our Kernel-Smith-MACA-30B surpasses large-scale counterparts such as DeepSeek-V3.2-think and Qwen3-235B-2507-think, highlighting potential for seamless adaptation across heterogeneous platforms. Beyond benchmark results, the same workflow produces upstream contributions to production systems including SGLang and LMDeploy, demonstrating that LLM-driven kernel optimization can transfer from controlled evaluation to practical deployment.
PDF151April 1, 2026