DICE: Diffusion Grote Taalmodellen Blinken Uit in het Genereren van CUDA-kernels
DICE: Diffusion Large Language Models Excel at Generating CUDA Kernels
February 12, 2026
Auteurs: Haolei Bai, Lingcheng Kong, Xueyi Chen, Jianmian Wang, Zhiqiang Tao, Huan Wang
cs.AI
Samenvatting
Diffusie large language models (dLLM's) zijn naar voren gekomen als een overtuigend alternatief voor autoregressieve (AR) LLM's, vanwege hun vermogen om tokens parallel te genereren. Dit paradigma is bijzonder geschikt voor codegeneratie, waarbij holistische structurele planning en niet-sequentiële verfijning cruciaal zijn. Ondanks dit potentieel blijft het aanpassen van dLLM's voor CUDA-kernelgeneratie een uitdaging, niet alleen belemmerd door de hoge specialisatie maar ook door het ernstige gebrek aan hoogwaardige trainingsdata. Om deze uitdagingen aan te pakken, construeren we CuKe, een uitgebreide supervised fine-tuning dataset geoptimaliseerd voor hoogwaardige CUDA-kernels. Daarbovenop stellen we een bi-fase curated reinforcement learning (BiC-RL) raamwerk voor, bestaande uit een CUDA-kernel-invulfase en een end-to-end CUDA-kernelgeneratiefase. Gebruikmakend van dit trainingsraamwerk introduceren we DICE, een reeks diffusie-large-language-modellen ontworpen voor CUDA-kernelgeneratie, verdeeld over drie parameterschalen: 1.7B, 4B en 8B. Uitgebreide experimenten op KernelBench tonen aan dat DICE significant beter presteert dan zowel autoregressieve als diffusie-LLM's van vergelijkbare schaal, waarmee een nieuwe state-of-the-art voor CUDA-kernelgeneratie wordt gevestigd.
English
Diffusion large language models (dLLMs) have emerged as a compelling alternative to autoregressive (AR) LLMs, owing to their capacity for parallel token generation. This paradigm is particularly well-suited for code generation, where holistic structural planning and non-sequential refinement are critical. Despite this potential, tailoring dLLMs for CUDA kernel generation remains challenging, obstructed not only by the high specialization but also by the severe lack of high-quality training data. To address these challenges, we construct CuKe, an augmented supervised fine-tuning dataset optimized for high-performance CUDA kernels. On top of it, we propose a bi-phase curated reinforcement learning (BiC-RL) framework consisting of a CUDA kernel infilling stage and an end-to-end CUDA kernel generation stage. Leveraging this training framework, we introduce DICE, a series of diffusion large language models designed for CUDA kernel generation, spanning three parameter scales, 1.7B, 4B, and 8B. Extensive experiments on KernelBench demonstrate that DICE significantly outperforms both autoregressive and diffusion LLMs of comparable scale, establishing a new state-of-the-art for CUDA kernel generation.