DICE: Los Modelos de Lenguaje Grandes de Difusión Sobresalen en la Generación de Kernels CUDA
DICE: Diffusion Large Language Models Excel at Generating CUDA Kernels
February 12, 2026
Autores: Haolei Bai, Lingcheng Kong, Xueyi Chen, Jianmian Wang, Zhiqiang Tao, Huan Wang
cs.AI
Resumen
Los modelos de lenguaje de gran escala de difusión (dLLM) han surgido como una alternativa atractiva a los modelos de lenguaje de gran escala autoregresivos (AR), debido a su capacidad para generar tokens en paralelo. Este paradigma es particularmente adecuado para la generación de código, donde la planificación estructural holística y el refinamiento no secuencial son críticos. A pesar de este potencial, adaptar los dLLM para la generación de kernels de CUDA sigue siendo un desafío, obstaculizado no solo por la alta especialización sino también por la grave falta de datos de entrenamiento de alta calidad. Para abordar estos desafíos, construimos CuKe, un conjunto de datos aumentado de ajuste fino supervisado optimizado para kernels de CUDA de alto rendimiento. Sobre esta base, proponemos un marco de aprendizaje por refuerzo con selección en dos fases (BiC-RL) que consiste en una etapa de relleno de kernels de CUDA y una etapa de generación de kernels de CUDA de extremo a extremo. Aprovechando este marco de entrenamiento, presentamos DICE, una serie de modelos de lenguaje de gran escala de difusión diseñados para la generación de kernels de CUDA, que abarcan tres escalas de parámetros: 1.7B, 4B y 8B. Experimentos exhaustivos en KernelBench demuestran que DICE supera significativamente tanto a los modelos de lenguaje de gran escala autoregresivos como a los de difusión de escala comparable, estableciendo un nuevo estado del arte para la generación de kernels de CUDA.
English
Diffusion large language models (dLLMs) have emerged as a compelling alternative to autoregressive (AR) LLMs, owing to their capacity for parallel token generation. This paradigm is particularly well-suited for code generation, where holistic structural planning and non-sequential refinement are critical. Despite this potential, tailoring dLLMs for CUDA kernel generation remains challenging, obstructed not only by the high specialization but also by the severe lack of high-quality training data. To address these challenges, we construct CuKe, an augmented supervised fine-tuning dataset optimized for high-performance CUDA kernels. On top of it, we propose a bi-phase curated reinforcement learning (BiC-RL) framework consisting of a CUDA kernel infilling stage and an end-to-end CUDA kernel generation stage. Leveraging this training framework, we introduce DICE, a series of diffusion large language models designed for CUDA kernel generation, spanning three parameter scales, 1.7B, 4B, and 8B. Extensive experiments on KernelBench demonstrate that DICE significantly outperforms both autoregressive and diffusion LLMs of comparable scale, establishing a new state-of-the-art for CUDA kernel generation.