dLLM: Eenvoudige diffusie-taalmodellering

Samenvatting

Hoewel diffusietaalmodellen (DLM's) zich snel ontwikkelen, convergeren veel recente modellen naar een reeks gedeelde componenten. Deze componenten zijn echter verspreid over ad-hoc onderzoekscodebases of missen transparante implementaties, waardoor ze moeilijk te reproduceren of uit te breiden zijn. Naarmate het veld versnelt, is er een duidelijke behoefte aan een uniform raamwerk dat deze gemeenschappelijke componenten standaardiseert, terwijl het flexibel genoeg blijft om nieuwe methoden en architecturen te ondersteunen. Om deze leemte aan te pakken, introduceren we dLLM, een open-source raamwerk dat de kerncomponenten van diffusietaalmodellering – training, inferentie en evaluatie – verenigt en ze eenvoudig aanpasbaar maakt voor nieuwe ontwerpen. Met dLLM kunnen gebruikers open-source grote DLM's zoals LLaDA en Dream reproduceren, finetunen, implementeren en evalueren via een gestandaardiseerde pijplijn. Het raamwerk biedt ook minimale, reproduceerbare recepten om kleine DLM's vanaf nul te bouwen met toegankelijke rekenkracht, inclusief het omzetten van elke BERT-stijl encoder of autoregressief taalmodel in een DLM. We geven ook de checkpoints van deze kleine DLM's vrij om DLM's toegankelijker te maken en toekomstig onderzoek te versnellen.

English

Although diffusion language models (DLMs) are evolving quickly, many recent models converge on a set of shared components. These components, however, are distributed across ad-hoc research codebases or lack transparent implementations, making them difficult to reproduce or extend. As the field accelerates, there is a clear need for a unified framework that standardizes these common components while remaining flexible enough to support new methods and architectures. To address this gap, we introduce dLLM, an open-source framework that unifies the core components of diffusion language modeling -- training, inference, and evaluation -- and makes them easy to customize for new designs. With dLLM, users can reproduce, finetune, deploy, and evaluate open-source large DLMs such as LLaDA and Dream through a standardized pipeline. The framework also provides minimal, reproducible recipes for building small DLMs from scratch with accessible compute, including converting any BERT-style encoder or autoregressive LM into a DLM. We also release the checkpoints of these small DLMs to make DLMs more accessible and accelerate future research.

dLLM: Eenvoudige diffusie-taalmodellering

dLLM: Simple Diffusion Language Modeling

Samenvatting

Support