Block Diffusion: Interpolation zwischen autoregressiven und Diffusions-SprachmodellenBlock Diffusion: Interpolating Between Autoregressive and Diffusion
Language Models
Diffusionssprachmodelle bieten einzigartige Vorteile gegenüber autoregressiven Modellen aufgrund ihres Potenzials für parallelisierte Generierung und Kontrollierbarkeit, doch sie hinken in der Wahrscheinlichkeitsmodellierung hinterher und sind auf die Generierung fester Längen beschränkt. In dieser Arbeit stellen wir eine Klasse von Block-Diffusionssprachmodellen vor, die zwischen diskreter Denoising-Diffusion und autoregressiven Modellen interpolieren. Block-Diffusion überwindet zentrale Einschränkungen beider Ansätze, indem sie die Generierung flexibler Längen unterstützt und die Inferenzeffizienz durch KV-Caching und parallele Token-Sampling verbessert. Wir schlagen ein Rezept für den Aufbau effektiver Block-Diffusionsmodelle vor, das einen effizienten Trainingsalgorithmus, Schätzer der Gradientenvarianz und datengetriebene Rauschpläne zur Minimierung der Varianz umfasst. Block-Diffusion setzt einen neuen State-of-the-art-Standard unter Diffusionsmodellen bei Sprachmodellierungs-Benchmarks und ermöglicht die Generierung von Sequenzen beliebiger Länge. Wir stellen den Code zusammen mit den Modellgewichten und einem Blogbeitrag auf der Projektseite zur Verfügung: https://m-arriola.com/bd3lms/