Kernel-Smith: Универсальный рецепт для эволюционной оптимизации ядер

Аннотация

Мы представляем Kernel-Smith — фреймворк для высокопроизводительной генерации GPU-ядрер и операторов, который сочетает стабильного эволюционного агента с оценкой и рецепт пост-обработки, ориентированный на эволюцию. Со стороны агента Kernel-Smith поддерживает популяцию исполняемых кандидатов и итеративно улучшает их, используя архив лучших и разнообразных программ вместе со структурированной обратной связью по выполнению, касающейся компиляции, корректности и ускорения. Чтобы сделать этот поиск надежным, мы создали сервисы оценки для конкретных бэкендов: Triton для GPU NVIDIA и Maca для GPU MetaX. Со стороны обучения мы преобразуем долгосрочные траектории эволюции в пошаговые сигналы обучения с учителем и с подкреплением, сохраняя правки, сохраняющие корректность и дающие высокий прирост производительности, так что модель оптимизируется как мощный локальный улучшатель внутри эволюционного цикла, а не как одношаговый генератор. В рамках единого эволюционного протокола Kernel-Smith-235B-RL демонстрирует наилучшую общую производительность на KernelBench с бэкендом Nvidia Triton, достигая наилучшего среднего коэффициента ускорения и превосходя передовые проприетарные модели, включая Gemini-3.0-pro и Claude-4.6-opus. Мы дополнительно проверяем фреймворк на бэкенде MetaX MACA, где наша модель Kernel-Smith-MACA-30B превосходит крупномасштабные аналоги, такие как DeepSeek-V3.2-think и Qwen3-235B-2507-think, что подчеркивает потенциал для бесшовной адаптации на гетерогенных платформах. Помимо результатов бенчмарков, тот же рабочий процесс вносит вклад в развитие производственных систем, включая SGLang и LMDeploy, демонстрируя, что оптимизация ядер, управляемая большими языковыми моделями, может переходить от контролируемой оценки к практическому развертыванию.

English

We present Kernel-Smith, a framework for high-performance GPU kernel and operator generation that combines a stable evaluation-driven evolutionary agent with an evolution-oriented post-training recipe. On the agent side, Kernel-Smith maintains a population of executable candidates and iteratively improves them using an archive of top-performing and diverse programs together with structured execution feedback on compilation, correctness, and speedup. To make this search reliable, we build backend-specific evaluation services for Triton on NVIDIA GPUs and Maca on MetaX GPUs. On the training side, we convert long-horizon evolution trajectories into step-centric supervision and reinforcement learning signals by retaining correctness-preserving, high-gain revisions, so that the model is optimized as a strong local improver inside the evolutionary loop rather than as a one-shot generator. Under a unified evolutionary protocol, Kernel-Smith-235B-RL achieves state-of-the-art overall performance on KernelBench with Nvidia Triton backend, attaining the best average speedup ratio and outperforming frontier proprietary models including Gemini-3.0-pro and Claude-4.6-opus. We further validate the framework on the MetaX MACA backend, where our Kernel-Smith-MACA-30B surpasses large-scale counterparts such as DeepSeek-V3.2-think and Qwen3-235B-2507-think, highlighting potential for seamless adaptation across heterogeneous platforms. Beyond benchmark results, the same workflow produces upstream contributions to production systems including SGLang and LMDeploy, demonstrating that LLM-driven kernel optimization can transfer from controlled evaluation to practical deployment.

Kernel-Smith: Универсальный рецепт для эволюционной оптимизации ядер

Kernel-Smith: A Unified Recipe for Evolutionary Kernel Optimization

Аннотация

Support