Block Diffusion: Interpolazione tra Modelli Linguistici Autoregressivi e di Diffusione

Abstract

I modelli linguistici basati su diffusione offrono vantaggi unici rispetto ai modelli autoregressivi grazie al loro potenziale per la generazione parallelizzata e alla controllabilità, tuttavia sono inferiori nella modellazione della verosimiglianza e sono limitati alla generazione di sequenze a lunghezza fissa. In questo lavoro, introduciamo una classe di modelli linguistici a diffusione a blocchi che interpola tra la diffusione discreta di denoising e i modelli autoregressivi. La diffusione a blocchi supera le principali limitazioni di entrambi gli approcci supportando la generazione di sequenze a lunghezza flessibile e migliorando l'efficienza inferenziale con la memorizzazione in cache delle chiavi-valori (KV) e il campionamento parallelo di token. Proponiamo una ricetta per costruire modelli di diffusione a blocchi efficaci che include un algoritmo di addestramento efficiente, stimatori della varianza del gradiente e schemi di rumore basati sui dati per minimizzare la varianza. La diffusione a blocchi stabilisce un nuovo stato dell'arte tra i modelli di diffusione nei benchmark di modellazione linguistica e consente la generazione di sequenze di lunghezza arbitraria. Forniamo il codice, insieme ai pesi del modello e a un post sul blog, sulla pagina del progetto: https://m-arriola.com/bd3lms/

English

Diffusion language models offer unique benefits over autoregressive models due to their potential for parallelized generation and controllability, yet they lag in likelihood modeling and are limited to fixed-length generation. In this work, we introduce a class of block diffusion language models that interpolate between discrete denoising diffusion and autoregressive models. Block diffusion overcomes key limitations of both approaches by supporting flexible-length generation and improving inference efficiency with KV caching and parallel token sampling. We propose a recipe for building effective block diffusion models that includes an efficient training algorithm, estimators of gradient variance, and data-driven noise schedules to minimize the variance. Block diffusion sets a new state-of-the-art performance among diffusion models on language modeling benchmarks and enables generation of arbitrary-length sequences. We provide the code, along with the model weights and blog post on the project page: https://m-arriola.com/bd3lms/

Block Diffusion: Interpolazione tra Modelli Linguistici Autoregressivi e di Diffusione

Block Diffusion: Interpolating Between Autoregressive and Diffusion Language Models

Abstract

Support