LangFlow: Continue Diffusiemodel Rivaliseert met Discreet Modellen in Taalmodelering

Samenvatting

Continue diffusie vormt de basis geweest voor hoogwaardige, controleerbare en stapsgewijze generatie van vele datamodaliteiten zoals afbeeldingen. Bij taalmodellering blijven bestaande continue diffusie-taalmodellen (DLM's) echter achter bij discrete tegenhangers vanwege de sparse data-ruimte en de onderbelichte ontwerpruimte. In dit werk overbruggen we deze kloof met LangFlow, de eerste continue DLM die kan wedijveren met discrete diffusie, door embeddingruimte-DLM's te verbinden met Flow Matching via Bregman-divergentie, samen met drie belangrijke innovaties: (1) we leiden een nieuwe ODE-gebaseerde NLL-grens af voor principerijke evaluatie van continue op stroming gebaseerde taalmodellen; (2) we stellen een informatie-uniform principe voor voor het instellen van het ruisschema, wat een leerbaar ruisschema op basis van een Gumbel-verdeling motiveert; en (3) we herzien eerdere trainingsprotocollen door zelfconditionering op te nemen, omdat we ontdekken dat het zowel de likelihood als de samplekwaliteit van embeddingruimte-DLM's verbetert met aanzienlijk andere effecten dan bij discrete diffusie. Alles samengenomen wedijvert LangFlow met top discrete DLM's op zowel perplexiteit (PPL) als generatieve perplexiteit (Gen. PPL), met een PPL van 30,0 op LM1B en 24,6 op OpenWebText. Het overtreft zelfs autoregressieve basislijnen in zero-shot transfer op 4 van de 7 benchmarks. LangFlow levert het eerste duidelijke bewijs dat continue diffusie een veelbelovend paradigma is voor taalmodellering. Homepage: https://github.com/nealchen2003/LangFlow

English

Continuous diffusion has been the foundation of high-fidelity, controllable, and few-step generation of many data modalities such as images. However, in language modeling, prior continuous diffusion language models (DLMs) lag behind discrete counterparts due to the sparse data space and the underexplored design space. In this work, we close this gap with LangFlow, the first continuous DLM to rival discrete diffusion, by connecting embedding-space DLMs to Flow Matching via Bregman divergence, alongside three key innovations: (1) we derive a novel ODE-based NLL bound for principled evaluation of continuous flow-based language models; (2) we propose an information-uniform principle for setting the noise schedule, which motivates a learnable noise scheduler based on a Gumbel distribution; and (3) we revise prior training protocols by incorporating self-conditioning, as we find it improves both likelihood and sample quality of embedding-space DLMs with effects substantially different from discrete diffusion. Putting everything together, LangFlow rivals top discrete DLMs on both the perplexity (PPL) and the generative perplexity (Gen. PPL), reaching a PPL of 30.0 on LM1B and 24.6 on OpenWebText. It even exceeds autoregressive baselines in zero-shot transfer on 4 out of 7 benchmarks. LangFlow provides the first clear evidence that continuous diffusion is a promising paradigm for language modeling. Homepage: https://github.com/nealchen2003/LangFlow

LangFlow: Continue Diffusiemodel Rivaliseert met Discreet Modellen in Taalmodelering

LangFlow: Continuous Diffusion Rivals Discrete in Language Modeling

Samenvatting

Support