dLLM: Einfache Diffusionssprachmodellierung

Zusammenfassung

Obwohl sich Diffusions-Sprachmodelle (DLMs) schnell weiterentwickeln, konvergieren viele aktuelle Modelle auf einen Satz gemeinsamer Komponenten. Diese Komponenten sind jedoch über ad-hoc Forschungs-Codebasen verteilt oder verfügen nicht über transparente Implementierungen, was ihre Reproduktion oder Erweiterung erschwert. Da das Feld an Geschwindigkeit gewinnt, besteht ein klarer Bedarf an einem einheitlichen Framework, das diese gemeinsamen Komponenten standardisiert, während es flexibel genug bleibt, um neue Methoden und Architekturen zu unterstützen. Um diese Lücke zu schließen, stellen wir dLLM vor, ein Open-Source-Framework, das die Kernkomponenten der Diffusion-Sprachmodellierung – Training, Inferenz und Evaluation – vereinheitlicht und ihre Anpassung für neue Designs erleichtert. Mit dLLM können Nutzer Open-Source-Großmodelle wie LLaDA und Dream über eine standardisierte Pipeline reproduzieren, feinabstimmen, bereitstellen und bewerten. Das Framework bietet zudem minimale, reproduzierbare Rezepte, um kleine DLMs von Grund auf mit zugänglicher Rechenleistung zu entwickeln, einschließlich der Konvertierung beliebiger BERT-artiger Encoder oder autoregressiver Sprachmodelle in ein DLM. Wir veröffentlichen auch die Checkpoints dieser kleinen DLMs, um DLMs zugänglicher zu machen und die zukünftige Forschung zu beschleunigen.

English

Although diffusion language models (DLMs) are evolving quickly, many recent models converge on a set of shared components. These components, however, are distributed across ad-hoc research codebases or lack transparent implementations, making them difficult to reproduce or extend. As the field accelerates, there is a clear need for a unified framework that standardizes these common components while remaining flexible enough to support new methods and architectures. To address this gap, we introduce dLLM, an open-source framework that unifies the core components of diffusion language modeling -- training, inference, and evaluation -- and makes them easy to customize for new designs. With dLLM, users can reproduce, finetune, deploy, and evaluate open-source large DLMs such as LLaDA and Dream through a standardized pipeline. The framework also provides minimal, reproducible recipes for building small DLMs from scratch with accessible compute, including converting any BERT-style encoder or autoregressive LM into a DLM. We also release the checkpoints of these small DLMs to make DLMs more accessible and accelerate future research.

dLLM: Einfache Diffusionssprachmodellierung

dLLM: Simple Diffusion Language Modeling

Zusammenfassung

Support