Nem Todos os Passos de Remoção de Ruído São Iguais: Agendamento de Modelos para Modelos de Linguagem de Difusão Mascarada Mais Rápidos

Resumo

Os recentes avanços nos modelos de linguagem de difusão mascarada (MDLMs) reduzem a diferença de qualidade em relação aos modelos autoregressivos, mas a sua amostragem permanece dispendiosa, pois a geração requer muitas passagens de desruído de sequência completa com um Transformer grande e, ao contrário da decodagem autoregressiva, não pode beneficiar do cache KV. Neste trabalho, exploramos a flexibilidade do framework de difusão e estudamos o escalonamento de modelos, em que um MDLM menor substitui o modelo completo num subconjunto de passos de desruído. Através de modelos treinados no OpenWebText e LM1B, mostramos que os passos iniciais e finais de desruído são substancialmente mais robustos a tal substituição do que os passos intermédios, permitindo uma redução de até 17% nos FLOPS com apenas uma modesta degradação na perplexidade geradora, tanto em geração incondicional como condicionada por prefixo, preservando a diversidade das amostras. Suportamos estas descobertas com uma análise da importância dos passos baseada na perda e na divergência KL entre modelos pequenos e grandes ao longo dos intervalos de tempo, bem como uma pesquisa exaustiva sobre segmentos de passos grosseiros, ambas identificando consistentemente o meio da trajetória de difusão como a parte mais sensível, independentemente dos conjuntos de dados. Os nossos resultados sugerem que regras de escalonamento simples e independentes da arquitetura podem acelerar significativamente a amostragem de MDLMs, preservando em grande parte a qualidade da geração.

English

Recent advances in masked diffusion language models (MDLMs) narrow the quality gap to autoregressive LMs, but their sampling remains expensive because generation requires many full-sequence denoising passes with a large Transformer and, unlike autoregressive decoding, cannot benefit from KV caching. In this work, we exploit the flexibility of the diffusion framework and study model scheduling, where a smaller MDLM replaces the full model at a subset of denoising steps. Across models trained on OpenWebText and LM1B, we show that early and late denoising steps are substantially more robust to such replacement than middle steps, enabling up to a 17% reduction in FLOPs with only modest degradation in generative perplexity under both unconditional and prefix-conditional generation, while preserving sample diversity. We support these findings with a step-importance analysis based on loss and KL divergence between small and large models across timesteps, as well as an exhaustive search over coarse step segments, both of which identify the middle of the diffusion trajectory as most sensitive consistently across datasets. Our results suggest that simple, architecture-agnostic scheduling rules can significantly accelerate MDLM sampling while largely preserving generation quality.

Nem Todos os Passos de Remoção de Ruído São Iguais: Agendamento de Modelos para Modelos de Linguagem de Difusão Mascarada Mais Rápidos

Not All Denoising Steps Are Equal: Model Scheduling for Faster Masked Diffusion Language Models

Resumo

Support