DARE: Diffusion Large Language Models Alignment and Reinforcement Executor

Samenvatting

Diffusie large language models (dLLM's) doen zich gelden als een aantrekkelijk alternatief voor de dominante autoregressieve modellen, waarbij strikt sequentiële token-generatie wordt vervangen door iteratieve ruisverwijdering en parallelle generatiedynamiek. Hun open-source-ecosysteem blijft echter gefragmenteerd over verschillende modelfamilies en, in het bijzonder, over post-trainingspijplijnen, waarbij reinforcement learning-doelstellingen, rollout-implementaties en evaluatiescripts vaak worden vrijgegeven als paperspecifieke codebibliotheken. Deze fragmentatie vertraagt de onderzoeksiteratie, verhoogt de technische last voor reproductie en bemoeilijkt een eerlijke vergelijking tussen algoritmen. Wij presenteren DARE (dLLMs Alignment and Reinforcement Executor), een open raamwerk voor het post-trainen en evalueren van dLLM's. Gebouwd bovenop verl~sheng2024hybridflow en OpenCompass~2023opencompass, verenigt DARE supervised fine-tuning, parameter-efficient fine-tuning, preference-optimalisatie en dLLM-specifieke reinforcement learning onder een gedeelde uitvoeringsstack voor zowel gemaskeerde als block-diffusie-taalmmodellen. Over representatieve modelfamilies, waaronder LLaDA, Dream, SDAR en LLaDA2.x, biedt DARE brede algoritmische dekking, reproduceerbare benchmarkevaluatie en praktische versnelling. Uitgebreide empirische resultaten tonen aan dat DARE dient als een herbruikbaar onderzoekssubstraat voor het ontwikkelen, vergelijken en implementeren van post-trainingsmethoden voor huidige en opkomende dLLM's.

English

Diffusion large language models (dLLMs) are emerging as a compelling alternative to dominant autoregressive models, replacing strictly sequential token generation with iterative denoising and parallel generation dynamics. However, their open-source ecosystem remains fragmented across model families and, in particular, across post-training pipelines, where reinforcement learning objectives, rollout implementations and evaluation scripts are often released as paper-specific codebases. This fragmentation slows research iteration, raises the engineering burden of reproduction, and makes fair comparison across algorithms difficult. We present DARE (dLLMs Alignment and Reinforcement Executor), an open framework for post-training and evaluating dLLMs. Built on top of verl~sheng2024hybridflow and OpenCompass~2023opencompass, DARE unifies supervised fine-tuning, parameter-efficient fine-tuning, preference optimization, and dLLM-specific reinforcement learning under a shared execution stack for both masked and block diffusion language models. Across representative model families including LLaDA, Dream, SDAR, and LLaDA2.x, DARE provides broad algorithmic coverage, reproducible benchmark evaluation, and practical acceleration. Extensive empirical results position that DARE serves as a reusable research substrate for developing, comparing, and deploying post-training methods for current and emerging dLLMs.