DICE: Большие языковые модели на основе диффузии превосходно генерируют CUDA-ядра
DICE: Diffusion Large Language Models Excel at Generating CUDA Kernels
February 12, 2026
Авторы: Haolei Bai, Lingcheng Kong, Xueyi Chen, Jianmian Wang, Zhiqiang Tao, Huan Wang
cs.AI
Аннотация
Диффузионные большие языковые модели (dLLM) стали перспективной альтернативой авторегрессионным (AR) LLM благодаря своей способности к параллельной генерации токенов. Данная парадигма особенно хорошо подходит для генерации кода, где критически важны целостное структурное планирование и несеквенциальное уточнение. Несмотря на этот потенциал, адаптация dLLM для генерации CUDA-ядр остается сложной задачей, что обусловлено не только высокой специализацией, но и острой нехваткой высококачественных данных для обучения. Для решения этих проблем мы создали CuKe — расширенный набор данных для контролируемой тонкой настройки, оптимизированный для высокопроизводительных CUDA-ядр. На его основе мы предлагаем двухфазную систему тщательно отобранного обучения с подкреплением (BiC-RL), состоящую из этапа дополнения CUDA-ядр и этапа сквозной генерации CUDA-ядр. Используя эту обучающую архитектуру, мы представляем DICE — серию диффузионных больших языковых моделей, предназначенных для генерации CUDA-ядр, с тремя масштабами параметров: 1.7B, 4B и 8B. Масштабные эксперименты на KernelBench демонстрируют, что DICE существенно превосходит как авторегрессионные, так и диффузионные LLM сопоставимого масштаба, устанавливая новый state-of-the-art в области генерации CUDA-ядр.
English
Diffusion large language models (dLLMs) have emerged as a compelling alternative to autoregressive (AR) LLMs, owing to their capacity for parallel token generation. This paradigm is particularly well-suited for code generation, where holistic structural planning and non-sequential refinement are critical. Despite this potential, tailoring dLLMs for CUDA kernel generation remains challenging, obstructed not only by the high specialization but also by the severe lack of high-quality training data. To address these challenges, we construct CuKe, an augmented supervised fine-tuning dataset optimized for high-performance CUDA kernels. On top of it, we propose a bi-phase curated reinforcement learning (BiC-RL) framework consisting of a CUDA kernel infilling stage and an end-to-end CUDA kernel generation stage. Leveraging this training framework, we introduce DICE, a series of diffusion large language models designed for CUDA kernel generation, spanning three parameter scales, 1.7B, 4B, and 8B. Extensive experiments on KernelBench demonstrate that DICE significantly outperforms both autoregressive and diffusion LLMs of comparable scale, establishing a new state-of-the-art for CUDA kernel generation.