DICE: Diffusion-große Sprachmodelle übertreffen sich bei der Generierung von CUDA-Kerneln

papers.abstract

Diffusionsbasierte große Sprachmodelle (dLLMs) haben sich als vielversprechende Alternative zu autoregressiven (AR) LLMs etabliert, was auf ihre Fähigkeit zur parallelen Token-Generierung zurückzuführen ist. Dieses Paradigma eignet sich besonders gut für die Code-Generierung, bei der ganzheitliche Strukturplanung und nicht-sequentielle Verfeinerung entscheidend sind. Trotz dieses Potenzials gestaltet sich die Anpassung von dLLMs für die CUDA-Kernel-Generierung nach wie vor schwierig, was nicht nur an der hohen Spezialisierung, sondern auch am gravierenden Mangel an hochwertigen Trainingsdaten liegt. Um diese Herausforderungen zu bewältigen, erstellen wir CuKe, einen erweiterten Supervised-Fine-Tuning-Datensatz, der für hochperformante CUDA-Kernel optimiert ist. Darauf aufbauend schlagen wir einen Bi-Phase-Curated-Reinforcement-Learning (BiC-RL)-Framework vor, der eine CUDA-Kernel-Infilling-Phase und eine End-to-End-CUDA-Kernel-Generierungsphase umfasst. Mithilfe dieses Trainingsframeworks stellen wir DICE vor, eine Reihe von diffusionsbasierten großen Sprachmodellen für die CUDA-Kernel-Generierung in drei Parametergrößen: 1,7B, 4B und 8B. Umfangreiche Experimente auf KernelBench zeigen, dass DICE sowohl autoregressive als auch diffusionsbasierte LLMs vergleichbarer Größe signifikant übertrifft und einen neuen State-of-the-Art für die CUDA-Kernel-Generierung etabliert.

English

Diffusion large language models (dLLMs) have emerged as a compelling alternative to autoregressive (AR) LLMs, owing to their capacity for parallel token generation. This paradigm is particularly well-suited for code generation, where holistic structural planning and non-sequential refinement are critical. Despite this potential, tailoring dLLMs for CUDA kernel generation remains challenging, obstructed not only by the high specialization but also by the severe lack of high-quality training data. To address these challenges, we construct CuKe, an augmented supervised fine-tuning dataset optimized for high-performance CUDA kernels. On top of it, we propose a bi-phase curated reinforcement learning (BiC-RL) framework consisting of a CUDA kernel infilling stage and an end-to-end CUDA kernel generation stage. Leveraging this training framework, we introduce DICE, a series of diffusion large language models designed for CUDA kernel generation, spanning three parameter scales, 1.7B, 4B, and 8B. Extensive experiments on KernelBench demonstrate that DICE significantly outperforms both autoregressive and diffusion LLMs of comparable scale, establishing a new state-of-the-art for CUDA kernel generation.

DICE: Diffusion-große Sprachmodelle übertreffen sich bei der Generierung von CUDA-Kerneln

DICE: Diffusion Large Language Models Excel at Generating CUDA Kernels

papers.abstract

Support