dLLM : Modélisation simple du langage par diffusion

Résumé

Bien que les modèles de langage par diffusion (DLM) évoluent rapidement, de nombreux modèles récents convergent vers un ensemble de composants partagés. Cependant, ces composants sont dispersés dans des bases de code de recherche ad hoc ou manquent d'implémentations transparentes, ce qui les rend difficiles à reproduire ou à étendre. Alors que le domaine accélère, il existe un besoin clair pour un cadre unifié qui standardise ces composants communs tout en restant suffisamment flexible pour prendre en charge de nouvelles méthodes et architectures. Pour combler cette lacune, nous présentons dLLM, un cadre open-source qui unifie les composants centraux de la modélisation du langage par diffusion — l'entraînement, l'inférence et l'évaluation — et les rend faciles à personnaliser pour de nouvelles conceptions. Avec dLLM, les utilisateurs peuvent reproduire, affiner, déployer et évaluer des grands DLM open-source tels que LLaDA et Dream via un pipeline standardisé. Le framework fournit également des recettes minimales et reproductibles pour construire des petits DLM à partir de zéro avec une puissance de calcul accessible, y compris la conversion de tout encodeur de style BERT ou modèle de langage autorégressif en DLM. Nous publions également les points de contrôle de ces petits DLM pour rendre les DLM plus accessibles et accélérer la recherche future.

English

Although diffusion language models (DLMs) are evolving quickly, many recent models converge on a set of shared components. These components, however, are distributed across ad-hoc research codebases or lack transparent implementations, making them difficult to reproduce or extend. As the field accelerates, there is a clear need for a unified framework that standardizes these common components while remaining flexible enough to support new methods and architectures. To address this gap, we introduce dLLM, an open-source framework that unifies the core components of diffusion language modeling -- training, inference, and evaluation -- and makes them easy to customize for new designs. With dLLM, users can reproduce, finetune, deploy, and evaluate open-source large DLMs such as LLaDA and Dream through a standardized pipeline. The framework also provides minimal, reproducible recipes for building small DLMs from scratch with accessible compute, including converting any BERT-style encoder or autoregressive LM into a DLM. We also release the checkpoints of these small DLMs to make DLMs more accessible and accelerate future research.

dLLM : Modélisation simple du langage par diffusion

dLLM: Simple Diffusion Language Modeling

Résumé

Support