Kernel-Smith: Una Ricetta Unificata per l'Ottimizzazione Evolutiva del Kernel

Abstract

Presentiamo Kernel-Smith, un framework per la generazione ad alte prestazioni di kernel GPU e operatori che combina un agente evolutivo stabile guidato dalla valutazione con una ricetta di post-addestramento orientata all'evoluzione. Sul lato dell'agente, Kernel-Smith mantiene una popolazione di candidati eseguibili e li migliora iterativamente utilizzando un archivio di programmi dalle prestazioni elevate e diversificati, insieme a feedback di esecuzione strutturati su compilazione, correttezza e speedup. Per rendere questa ricerca affidabile, costruiamo servizi di valutazione specifici per backend: Triton su GPU NVIDIA e Maca su GPU MetaX. Sul lato dell'addestramento, convertiamo traiettorie evolutive a lungo termine in segnali di supervisione step-centric e di apprendimento per rinforzo, conservando le revisioni che preservano la correttezza e ad alto guadagno, in modo che il modello sia ottimizzato come un potente miglioratore locale all'interno del ciclo evolutivo, piuttosto che come generatore one-shot. Sotto un protocollo evolutivo unificato, Kernel-Smith-235B-RL raggiunge prestazioni complessive all'avanguardia su KernelBench con backend Nvidia Triton, ottenendo il miglior rapporto di speedup medio e superando modelli proprietari di frontiera tra cui Gemini-3.0-pro e Claude-4.6-opus. Convalidiamo ulteriormente il framework sul backend MetaX MACA, dove il nostro Kernel-Smith-MACA-30B supera controparti su larga scala come DeepSeek-V3.2-think e Qwen3-235B-2507-think, evidenziando il potenziale per un adattamento senza soluzione di continuità su piattaforme eterogenee. Oltre ai risultati dei benchmark, lo stesso flusso di lavoro produce contributi upstream per sistemi di produzione come SGLang e LMDeploy, dimostrando che l'ottimizzazione dei kernel guidata da LLM può trasferirsi dalla valutazione controllata alla distribuzione pratica.

English

We present Kernel-Smith, a framework for high-performance GPU kernel and operator generation that combines a stable evaluation-driven evolutionary agent with an evolution-oriented post-training recipe. On the agent side, Kernel-Smith maintains a population of executable candidates and iteratively improves them using an archive of top-performing and diverse programs together with structured execution feedback on compilation, correctness, and speedup. To make this search reliable, we build backend-specific evaluation services for Triton on NVIDIA GPUs and Maca on MetaX GPUs. On the training side, we convert long-horizon evolution trajectories into step-centric supervision and reinforcement learning signals by retaining correctness-preserving, high-gain revisions, so that the model is optimized as a strong local improver inside the evolutionary loop rather than as a one-shot generator. Under a unified evolutionary protocol, Kernel-Smith-235B-RL achieves state-of-the-art overall performance on KernelBench with Nvidia Triton backend, attaining the best average speedup ratio and outperforming frontier proprietary models including Gemini-3.0-pro and Claude-4.6-opus. We further validate the framework on the MetaX MACA backend, where our Kernel-Smith-MACA-30B surpasses large-scale counterparts such as DeepSeek-V3.2-think and Qwen3-235B-2507-think, highlighting potential for seamless adaptation across heterogeneous platforms. Beyond benchmark results, the same workflow produces upstream contributions to production systems including SGLang and LMDeploy, demonstrating that LLM-driven kernel optimization can transfer from controlled evaluation to practical deployment.

Kernel-Smith: Una Ricetta Unificata per l'Ottimizzazione Evolutiva del Kernel

Kernel-Smith: A Unified Recipe for Evolutionary Kernel Optimization

Abstract

Support