DICE: I Modelli Linguistici su Larga Scala Basati su Diffusione Eccellono nella Generazione di Kernel CUDA
DICE: Diffusion Large Language Models Excel at Generating CUDA Kernels
February 12, 2026
Autori: Haolei Bai, Lingcheng Kong, Xueyi Chen, Jianmian Wang, Zhiqiang Tao, Huan Wang
cs.AI
Abstract
I modelli linguistici diffusivi di grandi dimensioni (dLLM) sono emersi come un'alternativa convincente ai modelli linguistici autoregressivi (AR), grazie alla loro capacità di generare token in parallelo. Questo paradigma è particolarmente adatto per la generazione di codice, dove la pianificazione strutturale olistica e l'affinamento non sequenziale sono fondamentali. Nonostante questo potenziale, l'adattamento dei dLLM per la generazione di kernel CUDA rimane impegnativo, ostacolato non solo dall'alta specializzazione richiesta ma anche dalla grave carenza di dati di addestramento di alta qualità.
Per affrontare queste sfide, abbiamo costruito CuKe, un dataset potenziato per il fine-tuning supervisionato, ottimizzato per kernel CUDA ad alte prestazioni. Su di esso, proponiamo un framework di apprendimento per rinforzo a due fasi con selezione curata (BiC-RL), costituito da una fase di riempimento di kernel CUDA e da una fase di generazione end-to-end di kernel CUDA. Sfruttando questo framework di addestramento, introduciamo DICE, una serie di modelli linguistici diffusivi progettati per la generazione di kernel CUDA, che coprono tre scale parametriche: 1,7B, 4B e 8B.
Esperimenti estensivi su KernelBench dimostrano che DICE supera significativamente sia i modelli linguistici autoregressivi che quelli diffusivi di scala comparabile, stabilendo un nuovo stato dell'arte per la generazione di kernel CUDA.
English
Diffusion large language models (dLLMs) have emerged as a compelling alternative to autoregressive (AR) LLMs, owing to their capacity for parallel token generation. This paradigm is particularly well-suited for code generation, where holistic structural planning and non-sequential refinement are critical. Despite this potential, tailoring dLLMs for CUDA kernel generation remains challenging, obstructed not only by the high specialization but also by the severe lack of high-quality training data. To address these challenges, we construct CuKe, an augmented supervised fine-tuning dataset optimized for high-performance CUDA kernels. On top of it, we propose a bi-phase curated reinforcement learning (BiC-RL) framework consisting of a CUDA kernel infilling stage and an end-to-end CUDA kernel generation stage. Leveraging this training framework, we introduce DICE, a series of diffusion large language models designed for CUDA kernel generation, spanning three parameter scales, 1.7B, 4B, and 8B. Extensive experiments on KernelBench demonstrate that DICE significantly outperforms both autoregressive and diffusion LLMs of comparable scale, establishing a new state-of-the-art for CUDA kernel generation.