dLLM: Modellazione Linguistica con Diffusione Semplice

Abstract

Sebbene i modelli linguistici di diffusione (DLM) si stiano evolvendo rapidamente, molti modelli recenti convergono su un insieme di componenti condivise. Tuttavia, queste componenti sono distribuite in codebase di ricerca ad-hoc o mancano di implementazioni trasparenti, rendendole difficili da riprodurre o estendere. Con l'accelerazione del campo, emerge chiaramente l'esigenza di un framework unificato che standardizzi queste componenti comuni, rimanendo al contempo sufficientemente flessibile per supportare nuovi metodi e architetture. Per colmare questa lacuna, presentiamo dLLM, un framework open-source che unifica i componenti fondamentali della modellazione linguistica di diffusione – addestramento, inferenza e valutazione – e li rende facili da personalizzare per nuovi progetti. Con dLLM, gli utenti possono riprodurre, mettere a punto, distribuire e valutare grandi DLM open-source come LLaDA e Dream attraverso una pipeline standardizzata. Il framework fornisce inoltre ricette minime e riproducibili per costruire piccoli DLM da zero con risorse computazionali accessibili, inclusa la conversione di qualsiasi encoder in stile BERT o LM autoregressivo in un DLM. Rilasciamo anche i checkpoint di questi piccoli DLM per rendere i DLM più accessibili e accelerare la ricerca futura.

English

Although diffusion language models (DLMs) are evolving quickly, many recent models converge on a set of shared components. These components, however, are distributed across ad-hoc research codebases or lack transparent implementations, making them difficult to reproduce or extend. As the field accelerates, there is a clear need for a unified framework that standardizes these common components while remaining flexible enough to support new methods and architectures. To address this gap, we introduce dLLM, an open-source framework that unifies the core components of diffusion language modeling -- training, inference, and evaluation -- and makes them easy to customize for new designs. With dLLM, users can reproduce, finetune, deploy, and evaluate open-source large DLMs such as LLaDA and Dream through a standardized pipeline. The framework also provides minimal, reproducible recipes for building small DLMs from scratch with accessible compute, including converting any BERT-style encoder or autoregressive LM into a DLM. We also release the checkpoints of these small DLMs to make DLMs more accessible and accelerate future research.

dLLM: Modellazione Linguistica con Diffusione Semplice

dLLM: Simple Diffusion Language Modeling

Abstract

Support