ChatPaper.aiChatPaper

Block Diffusion: Interpoleren tussen Autoregressieve en Diffusie Taalmodellen

Block Diffusion: Interpolating Between Autoregressive and Diffusion Language Models

March 12, 2025
Auteurs: Marianne Arriola, Aaron Gokaslan, Justin T Chiu, Zhihan Yang, Zhixuan Qi, Jiaqi Han, Subham Sekhar Sahoo, Volodymyr Kuleshov
cs.AI

Samenvatting

Diffusie-taalmodelen bieden unieke voordelen ten opzichte van autoregressieve modellen vanwege hun potentieel voor parallelle generatie en beheersbaarheid, maar ze blijven achter in waarschijnlijkheidsmodellering en zijn beperkt tot generatie met vaste lengte. In dit werk introduceren we een klasse van blokdiffusie-taalmodelen die een brug slaan tussen discrete denoising-diffusie en autoregressieve modellen. Blokdiffusie overkomt belangrijke beperkingen van beide benaderingen door flexibele-lengte-generatie te ondersteunen en de inferentie-efficiëntie te verbeteren met KV-caching en parallelle token-sampling. We stellen een recept voor voor het bouwen van effectieve blokdiffusie-modellen, inclusief een efficiënt trainingsalgoritme, schatters van gradiëntvariantie en data-gedreven ruisschema's om de variantie te minimaliseren. Blokdiffusie stelt een nieuwe state-of-the-art prestatie vast onder diffusiemodellen op taalmodelbenchmarks en maakt generatie van sequenties met willekeurige lengte mogelijk. We bieden de code, samen met de modelgewichten en een blogpost op de projectpagina: https://m-arriola.com/bd3lms/.
English
Diffusion language models offer unique benefits over autoregressive models due to their potential for parallelized generation and controllability, yet they lag in likelihood modeling and are limited to fixed-length generation. In this work, we introduce a class of block diffusion language models that interpolate between discrete denoising diffusion and autoregressive models. Block diffusion overcomes key limitations of both approaches by supporting flexible-length generation and improving inference efficiency with KV caching and parallel token sampling. We propose a recipe for building effective block diffusion models that includes an efficient training algorithm, estimators of gradient variance, and data-driven noise schedules to minimize the variance. Block diffusion sets a new state-of-the-art performance among diffusion models on language modeling benchmarks and enables generation of arbitrary-length sequences. We provide the code, along with the model weights and blog post on the project page: https://m-arriola.com/bd3lms/

Summary

AI-Generated Summary

PDF713March 13, 2025