DARE: Ejecutor de Alineación y Refuerzo para Modelos de Lenguaje Grandes de Difusión

Resumen

Los modelos de lenguaje de difusión a gran escala (dLLMs) están surgiendo como una alternativa atractiva a los modelos autorregresivos dominantes, sustituyendo la generación estrictamente secuencial de tokens por una dinámica de generación paralela y desruido iterativo. Sin embargo, su ecosistema de código abierto sigue fragmentado entre diferentes familias de modelos y, en particular, entre los procesos de post-entrenamiento, donde los objetivos de aprendizaje por refuerzo, las implementaciones de *rollout* y los scripts de evaluación a menudo se publican como bases de código específicas para cada artículo. Esta fragmentación ralentiza la iteración de la investigación, incrementa la carga de ingeniería para la reproducción y dificulta la comparación justa entre algoritmos. Presentamos DARE (Ejecutor de Alineamiento y Refuerzo para dLLMs), un marco abierto para el post-entrenamiento y evaluación de dLLMs. Construido sobre verl~sheng2024hybridflow y OpenCompass~2023opencompass, DARE unifica el ajuste fino supervisado, el ajuste fino eficiente en parámetros, la optimización de preferencias y el aprendizaje por refuerzo específico para dLLMs bajo una pila de ejecución compartida, tanto para modelos de lenguaje de difusión enmascarada como en bloques. En diversas familias de modelos representativas, como LLaDA, Dream, SDAR y LLaDA2.x, DARE ofrece una amplia cobertura algorítmica, evaluación reproducible de benchmarks y aceleración práctica. Extensos resultados empíricos posicionan a DARE como un sustrato de investigación reutilizable para desarrollar, comparar e implementar métodos de post-entrenamiento para los dLLMs actuales y emergentes.

English

Diffusion large language models (dLLMs) are emerging as a compelling alternative to dominant autoregressive models, replacing strictly sequential token generation with iterative denoising and parallel generation dynamics. However, their open-source ecosystem remains fragmented across model families and, in particular, across post-training pipelines, where reinforcement learning objectives, rollout implementations and evaluation scripts are often released as paper-specific codebases. This fragmentation slows research iteration, raises the engineering burden of reproduction, and makes fair comparison across algorithms difficult. We present DARE (dLLMs Alignment and Reinforcement Executor), an open framework for post-training and evaluating dLLMs. Built on top of verl~sheng2024hybridflow and OpenCompass~2023opencompass, DARE unifies supervised fine-tuning, parameter-efficient fine-tuning, preference optimization, and dLLM-specific reinforcement learning under a shared execution stack for both masked and block diffusion language models. Across representative model families including LLaDA, Dream, SDAR, and LLaDA2.x, DARE provides broad algorithmic coverage, reproducible benchmark evaluation, and practical acceleration. Extensive empirical results position that DARE serves as a reusable research substrate for developing, comparing, and deploying post-training methods for current and emerging dLLMs.

DARE: Ejecutor de Alineación y Refuerzo para Modelos de Lenguaje Grandes de Difusión

DARE: Diffusion Large Language Models Alignment and Reinforcement Executor

Resumen

Support