dLLM: Modelagem de Linguagem por Difusão Simples

Resumo

Embora os modelos de linguagem de difusão (DLMs) estejam evoluindo rapidamente, muitos modelos recentes convergem para um conjunto de componentes compartilhados. No entanto, esses componentes estão distribuídos em bases de código de pesquisa ad-hoc ou carecem de implementações transparentes, tornando-os difíceis de reproduzir ou estender. À medida que o campo acelera, há uma necessidade clara de uma estrutura unificada que padronize esses componentes comuns, mantendo-se flexível o suficiente para suportar novos métodos e arquiteturas. Para preencher essa lacuna, apresentamos o dLLM, uma estrutura de código aberto que unifica os componentes centrais da modelagem de linguagem por difusão — treinamento, inferência e avaliação — e facilita sua personalização para novos projetos. Com o dLLM, os usuários podem reproduzir, ajustar, implantar e avaliar grandes DLMs de código aberto, como LLaDA e Dream, por meio de um *pipeline* padronizado. A estrutura também fornece *recipes* mínimas e reproduzíveis para construir pequenos DLMs do zero com recursos computacionais acessíveis, incluindo a conversão de qualquer codificador no estilo BERT ou modelo de linguagem autoregressivo em um DLM. Também disponibilizamos os *checkpoints* desses pequenos DLMs para tornar os DLMs mais acessíveis e acelerar pesquisas futuras.

English

Although diffusion language models (DLMs) are evolving quickly, many recent models converge on a set of shared components. These components, however, are distributed across ad-hoc research codebases or lack transparent implementations, making them difficult to reproduce or extend. As the field accelerates, there is a clear need for a unified framework that standardizes these common components while remaining flexible enough to support new methods and architectures. To address this gap, we introduce dLLM, an open-source framework that unifies the core components of diffusion language modeling -- training, inference, and evaluation -- and makes them easy to customize for new designs. With dLLM, users can reproduce, finetune, deploy, and evaluate open-source large DLMs such as LLaDA and Dream through a standardized pipeline. The framework also provides minimal, reproducible recipes for building small DLMs from scratch with accessible compute, including converting any BERT-style encoder or autoregressive LM into a DLM. We also release the checkpoints of these small DLMs to make DLMs more accessible and accelerate future research.

dLLM: Modelagem de Linguagem por Difusão Simples

dLLM: Simple Diffusion Language Modeling

Resumo

Support