DICE: Modelos de Linguagem Grandes Baseados em Difusão se Destacam na Geração de Kernels CUDA
DICE: Diffusion Large Language Models Excel at Generating CUDA Kernels
February 12, 2026
Autores: Haolei Bai, Lingcheng Kong, Xueyi Chen, Jianmian Wang, Zhiqiang Tao, Huan Wang
cs.AI
Resumo
Os modelos de linguagem de grande escala por difusão (dLLMs) surgiram como uma alternativa atraente aos LLMs autorregressivos (AR), devido à sua capacidade de geração paralela de tokens. Este paradigma é particularmente adequado para a geração de código, onde o planeamento estrutural holístico e o refinamento não sequencial são críticos. Apesar deste potencial, a adaptação de dLLMs para a geração de *kernels* CUDA permanece um desafio, obstruída não só pela alta especialização, mas também pela severa carência de dados de treino de alta qualidade. Para enfrentar estes desafios, construímos o CuKe, um conjunto de dados aumentado de *fine-tuning* supervisionado otimizado para *kernels* CUDA de alto desempenho. Com base nele, propomos uma estrutura de aprendizagem por reforço com curadoria bifásica (BiC-RL), consistindo numa fase de preenchimento (*infilling*) de *kernels* CUDA e numa fase de geração de *kernels* CUDA de ponta a ponta. Aproveitando esta estrutura de treino, introduzimos o DICE, uma série de modelos de linguagem de grande escala por difusão concebidos para a geração de *kernels* CUDA, abrangendo três escalas de parâmetros: 1,7B, 4B e 8B. Experiências extensivas no KernelBench demonstram que o DICE supera significativamente tanto os LLMs autorregressivos como os de difusão de escala comparável, estabelecendo um novo estado da arte para a geração de *kernels* CUDA.
English
Diffusion large language models (dLLMs) have emerged as a compelling alternative to autoregressive (AR) LLMs, owing to their capacity for parallel token generation. This paradigm is particularly well-suited for code generation, where holistic structural planning and non-sequential refinement are critical. Despite this potential, tailoring dLLMs for CUDA kernel generation remains challenging, obstructed not only by the high specialization but also by the severe lack of high-quality training data. To address these challenges, we construct CuKe, an augmented supervised fine-tuning dataset optimized for high-performance CUDA kernels. On top of it, we propose a bi-phase curated reinforcement learning (BiC-RL) framework consisting of a CUDA kernel infilling stage and an end-to-end CUDA kernel generation stage. Leveraging this training framework, we introduce DICE, a series of diffusion large language models designed for CUDA kernel generation, spanning three parameter scales, 1.7B, 4B, and 8B. Extensive experiments on KernelBench demonstrate that DICE significantly outperforms both autoregressive and diffusion LLMs of comparable scale, establishing a new state-of-the-art for CUDA kernel generation.