ChatPaper.aiChatPaper

DICE : Les grands modèles de langage basés sur la diffusion excellent dans la génération de noyaux CUDA

DICE: Diffusion Large Language Models Excel at Generating CUDA Kernels

February 12, 2026
Auteurs: Haolei Bai, Lingcheng Kong, Xueyi Chen, Jianmian Wang, Zhiqiang Tao, Huan Wang
cs.AI

Résumé

Les modèles de langage à grande échelle par diffusion (dLLM) émergent comme une alternative convaincante aux LLM autorégressifs (AR), grâce à leur capacité à générer des jetons en parallèle. Ce paradigme est particulièrement adapté à la génération de code, où la planification structurelle holistique et l'affinement non séquentiel sont essentiels. Malgré ce potentiel, l'adaptation des dLLM à la génération de noyaux CUDA reste difficile, entravée non seulement par la haute spécialisation requise, mais aussi par le manque criant de données d'entraînement de haute qualité. Pour relever ces défis, nous avons construit CuKe, un jeu de données d'affinage supervisé optimisé pour les noyaux CUDA hautes performances. Sur cette base, nous proposons un cadre d'apprentissage par renforcement à double phase (BiC-RL) comprenant une étape de remplissage de noyaux CUDA et une étape de génération de noyaux CUDA de bout en bout. En tirant parti de ce cadre d'entraînement, nous présentons DICE, une série de modèles de langage à grande échelle par diffusion conçus pour la génération de noyaux CUDA, couvrant trois échelles de paramètres : 1,7B, 4B et 8B. Des expériences approfondies sur KernelBench démontrent que DICE surpasse significativement les LLM autorégressifs et par diffusion d'échelle comparable, établissant un nouvel état de l'art pour la génération de noyaux CUDA.
English
Diffusion large language models (dLLMs) have emerged as a compelling alternative to autoregressive (AR) LLMs, owing to their capacity for parallel token generation. This paradigm is particularly well-suited for code generation, where holistic structural planning and non-sequential refinement are critical. Despite this potential, tailoring dLLMs for CUDA kernel generation remains challenging, obstructed not only by the high specialization but also by the severe lack of high-quality training data. To address these challenges, we construct CuKe, an augmented supervised fine-tuning dataset optimized for high-performance CUDA kernels. On top of it, we propose a bi-phase curated reinforcement learning (BiC-RL) framework consisting of a CUDA kernel infilling stage and an end-to-end CUDA kernel generation stage. Leveraging this training framework, we introduce DICE, a series of diffusion large language models designed for CUDA kernel generation, spanning three parameter scales, 1.7B, 4B, and 8B. Extensive experiments on KernelBench demonstrate that DICE significantly outperforms both autoregressive and diffusion LLMs of comparable scale, establishing a new state-of-the-art for CUDA kernel generation.
PDF63March 28, 2026