DARE: Allineamento e Esecutore di Rinforzo per Modelli Linguistici di Grandi Dimensioni basati su Diffusione

Abstract

I modelli linguistici basati su diffusione (dLLM) stanno emergendo come una valida alternativa ai modelli autoregressivi dominanti, sostituendo la generazione strettamente sequenziale di token con dinamiche di generazione parallela e denoising iterativo. Tuttavia, il loro ecosistema open-source rimane frammentato tra le diverse famiglie di modelli e, in particolare, tra le pipeline di post-training, dove obiettivi di reinforcement learning, implementazioni di rollout e script di valutazione vengono spesso rilasciati come codebase specifiche per singoli articoli. Questa frammentazione rallenta l'iter della ricerca, aumenta il carico ingegneristico per la riproduzione e rende difficile un confronto equo tra gli algoritmi. Presentiamo DARE (dLLMs Alignment and Reinforcement Executor), un framework open per il post-training e la valutazione dei dLLM. Costruito su verl~sheng2024hybridflow e OpenCompass~2023opencompass, DARE unisce fine-tuning supervisionato, fine-tuning efficiente parametrico, ottimizzazione delle preferenze e reinforcement learning specifico per dLLM sotto uno stack di esecuzione condiviso, valido sia per modelli linguistici a diffusione mascherata che a blocchi. Attraverso famiglie di modelli rappresentative come LLaDA, Dream, SDAR e LLaDA2.x, DARE fornisce un'ampia copertura algoritmica, valutazione benchmark riproducibile e accelerazione pratica. I risultati empirici su vasta scala dimostrano che DARE funge da substrato di ricerca riutilizzabile per sviluppare, confrontare e implementare metodi di post-training per i dLLM attuali ed emergenti.

English

Diffusion large language models (dLLMs) are emerging as a compelling alternative to dominant autoregressive models, replacing strictly sequential token generation with iterative denoising and parallel generation dynamics. However, their open-source ecosystem remains fragmented across model families and, in particular, across post-training pipelines, where reinforcement learning objectives, rollout implementations and evaluation scripts are often released as paper-specific codebases. This fragmentation slows research iteration, raises the engineering burden of reproduction, and makes fair comparison across algorithms difficult. We present DARE (dLLMs Alignment and Reinforcement Executor), an open framework for post-training and evaluating dLLMs. Built on top of verl~sheng2024hybridflow and OpenCompass~2023opencompass, DARE unifies supervised fine-tuning, parameter-efficient fine-tuning, preference optimization, and dLLM-specific reinforcement learning under a shared execution stack for both masked and block diffusion language models. Across representative model families including LLaDA, Dream, SDAR, and LLaDA2.x, DARE provides broad algorithmic coverage, reproducible benchmark evaluation, and practical acceleration. Extensive empirical results position that DARE serves as a reusable research substrate for developing, comparing, and deploying post-training methods for current and emerging dLLMs.

DARE: Allineamento e Esecutore di Rinforzo per Modelli Linguistici di Grandi Dimensioni basati su Diffusione

DARE: Diffusion Large Language Models Alignment and Reinforcement Executor

Abstract

Support