ReFusion: Um Modelo de Linguagem Grande de Difusão com Decodagem Autoregressiva Paralela

Resumo

Os modelos autoregressivos (ARMs) são limitados pela inferência sequencial lenta. Embora os modelos de difusão mascarada (MDMs) ofereçam uma alternativa paralela, eles sofrem de desvantagens críticas: alta sobrecarga computacional devido à impossibilidade de usar cache Key-Value (KV) e geração incoerente resultante da aprendizagem de dependências sobre um espaço intratável de combinações de tokens. Para superar estas limitações, introduzimos o ReFusion, um novo modelo de difusão mascarada que alcança desempenho e eficiência superiores ao elevar a decodificação paralela do nível de token para um nível superior de *slot*, onde cada *slot* é uma sub-sequência contígua de comprimento fixo. Isto é alcançado através de um processo iterativo de decodificação "planejar-e-preencher": um passo de planeamento baseado em difusão identifica primeiro um conjunto de *slots* fracamente dependentes, e um passo de preenchimento autoregressivo decodifica depois estes *slots* selecionados em paralelo. O desenho baseado em *slots* permite simultaneamente a reutilização total do cache KV com uma estrutura causal unificada e reduz a complexidade de aprendizagem do espaço de combinações de tokens para um espaço manejável de permutações a nível de *slot*. Experimentos extensivos em sete *benchmarks* diversos mostram que o ReFusion não só supera amplamente os MDMs anteriores com ganhos de desempenho de 34% e uma aceleração média superior a 18 vezes, mas também reduz a diferença de desempenho para ARMs fortes mantendo uma aceleração média de 2,33 vezes.

English

Autoregressive models (ARMs) are hindered by slow sequential inference. While masked diffusion models (MDMs) offer a parallel alternative, they suffer from critical drawbacks: high computational overhead from precluding Key-Value (KV) caching, and incoherent generation arising from learning dependencies over an intractable space of token combinations. To address these limitations, we introduce ReFusion, a novel masked diffusion model that achieves superior performance and efficiency by elevating parallel decoding from the token level to a higher slot level, where each slot is a fixed-length, contiguous sub-sequence. This is achieved through an iterative ``plan-and-infill'' decoding process: a diffusion-based planning step first identifies a set of weakly dependent slots, and an autoregressive infilling step then decodes these selected slots in parallel. The slot-based design simultaneously unlocks full KV cache reuse with a unified causal framework and reduces the learning complexity from the token combination space to a manageable slot-level permutation space. Extensive experiments on seven diverse benchmarks show that ReFusion not only overwhelmingly surpasses prior MDMs with 34% performance gains and an over 18times speedup on average, but also bridges the performance gap to strong ARMs while maintaining a 2.33times average speedup.

ReFusion: Um Modelo de Linguagem Grande de Difusão com Decodagem Autoregressiva Paralela

ReFusion: A Diffusion Large Language Model with Parallel Autoregressive Decoding

Resumo

Support