dLLM: Modelado de Lenguaje por Difusión Simple

Resumen

Aunque los modelos lingüísticos de difusión (DLM) evolucionan rápidamente, muchos modelos recientes convergen en un conjunto de componentes compartidos. Sin embargo, estos componentes están distribuidos en bases de código de investigación ad hoc o carecen de implementaciones transparentes, lo que dificulta su reproducción o extensión. A medida que el campo se acelera, existe una clara necesidad de un marco unificado que estandarice estos componentes comunes, manteniendo al mismo tiempo la flexibilidad suficiente para admitir nuevos métodos y arquitecturas. Para abordar esta brecha, presentamos dLLM, un marco de código abierto que unifica los componentes centrales del modelado lingüístico de difusión —entrenamiento, inferencia y evaluación— y facilita su personalización para nuevos diseños. Con dLLM, los usuarios pueden reproducir, ajustar, implementar y evaluar grandes DLM de código abierto, como LLaDA y Dream, mediante una canalización estandarizada. El marco también proporciona recetas mínimas y reproducibles para construir pequeños DLM desde cero con recursos computacionales accesibles, incluyendo la conversión de cualquier codificador estilo BERT o LM autorregresivo en un DLM. También publicamos los puntos de control de estos pequeños DLM para hacer que los DLM sean más accesibles y acelerar la investigación futura.

English

Although diffusion language models (DLMs) are evolving quickly, many recent models converge on a set of shared components. These components, however, are distributed across ad-hoc research codebases or lack transparent implementations, making them difficult to reproduce or extend. As the field accelerates, there is a clear need for a unified framework that standardizes these common components while remaining flexible enough to support new methods and architectures. To address this gap, we introduce dLLM, an open-source framework that unifies the core components of diffusion language modeling -- training, inference, and evaluation -- and makes them easy to customize for new designs. With dLLM, users can reproduce, finetune, deploy, and evaluate open-source large DLMs such as LLaDA and Dream through a standardized pipeline. The framework also provides minimal, reproducible recipes for building small DLMs from scratch with accessible compute, including converting any BERT-style encoder or autoregressive LM into a DLM. We also release the checkpoints of these small DLMs to make DLMs more accessible and accelerate future research.

dLLM: Modelado de Lenguaje por Difusión Simple

dLLM: Simple Diffusion Language Modeling

Resumen

Support