Block Diffusion: Interpolazione tra Modelli Linguistici Autoregressivi e di Diffusione
Block Diffusion: Interpolating Between Autoregressive and Diffusion Language Models
March 12, 2025
Autori: Marianne Arriola, Aaron Gokaslan, Justin T Chiu, Zhihan Yang, Zhixuan Qi, Jiaqi Han, Subham Sekhar Sahoo, Volodymyr Kuleshov
cs.AI
Abstract
I modelli linguistici basati su diffusione offrono vantaggi unici rispetto ai modelli autoregressivi grazie al loro potenziale per la generazione parallelizzata e alla controllabilità, tuttavia sono inferiori nella modellazione della verosimiglianza e sono limitati alla generazione di sequenze a lunghezza fissa. In questo lavoro, introduciamo una classe di modelli linguistici a diffusione a blocchi che interpola tra la diffusione discreta di denoising e i modelli autoregressivi. La diffusione a blocchi supera le principali limitazioni di entrambi gli approcci supportando la generazione di sequenze a lunghezza flessibile e migliorando l'efficienza inferenziale con la memorizzazione in cache delle chiavi-valori (KV) e il campionamento parallelo di token. Proponiamo una ricetta per costruire modelli di diffusione a blocchi efficaci che include un algoritmo di addestramento efficiente, stimatori della varianza del gradiente e schemi di rumore basati sui dati per minimizzare la varianza. La diffusione a blocchi stabilisce un nuovo stato dell'arte tra i modelli di diffusione nei benchmark di modellazione linguistica e consente la generazione di sequenze di lunghezza arbitraria. Forniamo il codice, insieme ai pesi del modello e a un post sul blog, sulla pagina del progetto: https://m-arriola.com/bd3lms/
English
Diffusion language models offer unique benefits over autoregressive models
due to their potential for parallelized generation and controllability, yet
they lag in likelihood modeling and are limited to fixed-length generation. In
this work, we introduce a class of block diffusion language models that
interpolate between discrete denoising diffusion and autoregressive models.
Block diffusion overcomes key limitations of both approaches by supporting
flexible-length generation and improving inference efficiency with KV caching
and parallel token sampling. We propose a recipe for building effective block
diffusion models that includes an efficient training algorithm, estimators of
gradient variance, and data-driven noise schedules to minimize the variance.
Block diffusion sets a new state-of-the-art performance among diffusion models
on language modeling benchmarks and enables generation of arbitrary-length
sequences. We provide the code, along with the model weights and blog post on
the project page: https://m-arriola.com/bd3lms/