DiffuCoder: Inzicht in en verbetering van gemaskeerde diffusiemodellen voor codegeneratie

Samenvatting

Diffusion grote taalmodellen (dLLMs) zijn overtuigende alternatieven voor autoregressieve (AR) modellen omdat hun denoising-modellen over de gehele sequentie werken. De globale planning en iteratieve verfijningseigenschappen van dLLMs zijn vooral nuttig voor codegeneratie. Echter, de huidige trainings- en inferentiemechanismen voor dLLMs in codering zijn nog steeds onderbelicht. Om het decodeergedrag van dLLMs te ontrafelen en hun potentieel voor codering te ontsluiten, onderzoeken we systematisch hun denoising-processen en reinforcement learning (RL) methoden. We trainen een 7B dLLM, DiffuCoder, op 130B tokens aan code. Met dit model als testomgeving analyseren we het decodeergedrag, waarbij we onthullen hoe het verschilt van dat van AR-modellen: (1) dLLMs kunnen bepalen hoe causaal hun generatie moet zijn zonder te vertrouwen op semi-AR-decodering, en (2) het verhogen van de samplingtemperatuur diversifieert niet alleen de tokenkeuzes maar ook hun generatievolgorde. Deze diversiteit creëert een rijke zoekruimte voor RL-rollouts. Voor RL-training stellen we, om de variantie van token log-likelihood schattingen te verminderen en de trainingsefficiëntie te behouden, coupled-GRPO voor, een nieuw sampling-schema dat complementaire maskerruis construeert voor voltooiingen die in de training worden gebruikt. In onze experimenten verbetert coupled-GRPO de prestaties van DiffuCoder aanzienlijk op codegeneratiebenchmarks (+4,4\% op EvalPlus) en vermindert het de afhankelijkheid van AR-causaliteit tijdens decodering. Ons werk biedt dieper inzicht in de werking van dLLM-generatie en biedt een effectief, diffusion-native RL-trainingsraamwerk. https://github.com/apple/ml-diffucoder.

English

Diffusion large language models (dLLMs) are compelling alternatives to autoregressive (AR) models because their denoising models operate over the entire sequence. The global planning and iterative refinement features of dLLMs are particularly useful for code generation. However, current training and inference mechanisms for dLLMs in coding are still under-explored. To demystify the decoding behavior of dLLMs and unlock their potential for coding, we systematically investigate their denoising processes and reinforcement learning (RL) methods. We train a 7B dLLM, DiffuCoder, on 130B tokens of code. Using this model as a testbed, we analyze its decoding behavior, revealing how it differs from that of AR models: (1) dLLMs can decide how causal their generation should be without relying on semi-AR decoding, and (2) increasing the sampling temperature diversifies not only token choices but also their generation order. This diversity creates a rich search space for RL rollouts. For RL training, to reduce the variance of token log-likelihood estimates and maintain training efficiency, we propose coupled-GRPO, a novel sampling scheme that constructs complementary mask noise for completions used in training. In our experiments, coupled-GRPO significantly improves DiffuCoder's performance on code generation benchmarks (+4.4\% on EvalPlus) and reduces reliance on AR causal during decoding. Our work provides deeper insight into the machinery of dLLM generation and offers an effective, diffusion-native RL training framework. https://github.com/apple/ml-diffucoder.

DiffuCoder: Inzicht in en verbetering van gemaskeerde diffusiemodellen voor codegeneratie

DiffuCoder: Understanding and Improving Masked Diffusion Models for Code Generation

Samenvatting

Support