DiffuCoder: Compreendendo e Aprimorando Modelos de Difusão Mascarada para Geração de Código
DiffuCoder: Understanding and Improving Masked Diffusion Models for Code Generation
June 25, 2025
Autores: Shansan Gong, Ruixiang Zhang, Huangjie Zheng, Jiatao Gu, Navdeep Jaitly, Lingpeng Kong, Yizhe Zhang
cs.AI
Resumo
Modelos de linguagem de grande escala baseados em difusão (dLLMs) são alternativas atraentes aos modelos autorregressivos (AR) porque seus modelos de remoção de ruído operam sobre toda a sequência. As características de planejamento global e refinamento iterativo dos dLLMs são particularmente úteis para geração de código. No entanto, os mecanismos atuais de treinamento e inferência para dLLMs em codificação ainda são pouco explorados. Para desvendar o comportamento de decodificação dos dLLMs e liberar seu potencial para codificação, investigamos sistematicamente seus processos de remoção de ruído e métodos de aprendizado por reforço (RL). Treinamos um dLLM de 7B, o DiffuCoder, com 130B tokens de código. Usando esse modelo como plataforma de testes, analisamos seu comportamento de decodificação, revelando como ele difere dos modelos AR: (1) dLLMs podem decidir o quão causal sua geração deve ser sem depender de decodificação semi-AR, e (2) aumentar a temperatura de amostragem diversifica não apenas as escolhas de tokens, mas também sua ordem de geração. Essa diversidade cria um espaço de busca rico para rollouts de RL. Para o treinamento de RL, a fim de reduzir a variância das estimativas de log-verossimilhança dos tokens e manter a eficiência do treinamento, propomos o coupled-GRPO, um esquema de amostragem inovador que constrói ruído de máscara complementar para as conclusões usadas no treinamento. Em nossos experimentos, o coupled-GRPO melhora significativamente o desempenho do DiffuCoder em benchmarks de geração de código (+4,4% no EvalPlus) e reduz a dependência da causalidade AR durante a decodificação. Nosso trabalho fornece uma visão mais profunda sobre o mecanismo de geração dos dLLMs e oferece uma estrutura de treinamento de RL eficaz e nativa para difusão. https://github.com/apple/ml-diffucoder.
English
Diffusion large language models (dLLMs) are compelling alternatives to
autoregressive (AR) models because their denoising models operate over the
entire sequence. The global planning and iterative refinement features of dLLMs
are particularly useful for code generation. However, current training and
inference mechanisms for dLLMs in coding are still under-explored. To demystify
the decoding behavior of dLLMs and unlock their potential for coding, we
systematically investigate their denoising processes and reinforcement learning
(RL) methods. We train a 7B dLLM, DiffuCoder, on 130B tokens of code.
Using this model as a testbed, we analyze its decoding behavior, revealing how
it differs from that of AR models: (1) dLLMs can decide how causal their
generation should be without relying on semi-AR decoding, and (2) increasing
the sampling temperature diversifies not only token choices but also their
generation order. This diversity creates a rich search space for RL rollouts.
For RL training, to reduce the variance of token log-likelihood estimates and
maintain training efficiency, we propose coupled-GRPO, a novel
sampling scheme that constructs complementary mask noise for completions used
in training. In our experiments, coupled-GRPO significantly improves
DiffuCoder's performance on code generation benchmarks (+4.4\% on EvalPlus) and
reduces reliance on AR causal during decoding. Our work provides deeper insight
into the machinery of dLLM generation and offers an effective, diffusion-native
RL training framework. https://github.com/apple/ml-diffucoder.