DARE: Diffusion Large Language Models Alignment and Reinforcement Executor

Zusammenfassung

Diffusionsbasierte große Sprachmodelle (dLLMs) etablieren sich als vielversprechende Alternative zu den dominanten autoregressiven Modellen, indem sie strikt sequenzielle Token-Generierung durch iterative Entrauschung und parallele Generierungsdynamiken ersetzen. Ihr Open-Source-Ökosystem bleibt jedoch fragmentiert über Modellfamilien hinweg und insbesondere über Nachtrainings-Pipelines, bei denen Reinforcement-Learning-Ziele, Rollout-Implementierungen und Evaluierungsskripte oft als paperspezifische Codebasen veröffentlicht werden. Diese Fragmentierung verlangsamt die Forschungsiteration, erhöht den technischen Aufwand für Reproduktion und erschwert den fairen Vergleich von Algorithmen. Wir stellen DARE (dLLMs Alignment and Reinforcement Executor) vor, ein offenes Framework für das Nachtraining und die Evaluierung von dLLMs. Aufbauend auf verl~sheng2024hybridflow und OpenCompass~2023opencompass vereinheitlicht DARE überwachte Feinabstimmung, parameter-effiziente Feinabstimmung, Präferenzoptimierung und dLLM-spezifisches Reinforcement-Learning unter einer gemeinsamen Ausführungsstack für maskierte und Block-Diffusions-Sprachmodelle. Über repräsentative Modellfamilien wie LLaDA, Dream, SDAR und LLaDA2.x hinweg bietet DARE breite algorithmische Abdeckung, reproduzierbare Benchmark-Evaluierung und praktische Beschleunigung. Umfangreiche empirische Ergebnisse zeigen, dass DARE als wiederverwendbare Forschungsgrundlage für die Entwicklung, den Vergleich und den Einsatz von Nachtrainingsmethoden für aktuelle und neu aufkommende dLLMs dient.

English

Diffusion large language models (dLLMs) are emerging as a compelling alternative to dominant autoregressive models, replacing strictly sequential token generation with iterative denoising and parallel generation dynamics. However, their open-source ecosystem remains fragmented across model families and, in particular, across post-training pipelines, where reinforcement learning objectives, rollout implementations and evaluation scripts are often released as paper-specific codebases. This fragmentation slows research iteration, raises the engineering burden of reproduction, and makes fair comparison across algorithms difficult. We present DARE (dLLMs Alignment and Reinforcement Executor), an open framework for post-training and evaluating dLLMs. Built on top of verl~sheng2024hybridflow and OpenCompass~2023opencompass, DARE unifies supervised fine-tuning, parameter-efficient fine-tuning, preference optimization, and dLLM-specific reinforcement learning under a shared execution stack for both masked and block diffusion language models. Across representative model families including LLaDA, Dream, SDAR, and LLaDA2.x, DARE provides broad algorithmic coverage, reproducible benchmark evaluation, and practical acceleration. Extensive empirical results position that DARE serves as a reusable research substrate for developing, comparing, and deploying post-training methods for current and emerging dLLMs.