DARE: Executor de Alinhamento e Reforço para Grandes Modelos de Linguagem por Difusão
DARE: Diffusion Large Language Models Alignment and Reinforcement Executor
April 5, 2026
Autores: Jingyi Yang, Yuxian Jiang, Xuhao Hu, Shuang Cheng, Biqing Qi, Jing Shao
cs.AI
Resumo
Os modelos de linguagem de grande porte baseados em difusão (dLLMs) estão surgindo como uma alternativa atraente aos modelos autoregressivos dominantes, substituindo a geração estritamente sequencial de tokens por dinâmicas de geração paralela e desruído iterativo. No entanto, seu ecossistema de código aberto permanece fragmentado entre famílias de modelos e, em particular, entre os fluxos de pós-treinamento, onde objetivos de aprendizagem por reforço, implementações de rollouts e scripts de avaliação são frequentemente lançados como bases de código específicas de artigos. Esta fragmentação desacelera a iteração de pesquisa, aumenta o fardo de engenharia para reprodução e dificulta a comparação justa entre algoritmos. Apresentamos o DARE (Executor de Alinhamento e Reforço para dLLMs), um framework aberto para pós-treinar e avaliar dLLMs. Construído sobre verl~sheng2024hybridflow e OpenCompass~2023opencompass, o DARE unifica o ajuste fino supervisionado, o ajuste fino eficiente em parâmetros, a otimização de preferências e a aprendizagem por reforço específica para dLLMs sob uma pilha de execução compartilhada para modelos de linguagem de difusão mascarada e em blocos. Através de famílias de modelos representativas, incluindo LLaDA, Dream, SDAR e LLaDA2.x, o DARE oferece ampla cobertura algorítmica, avaliação de benchmark reproduzível e aceleração prática. Resultados empíricos extensivos posicionam o DARE como um substrato de pesquisa reutilizável para desenvolver, comparar e implantar métodos de pós-treinamento para dLLMs atuais e emergentes.
English
Diffusion large language models (dLLMs) are emerging as a compelling alternative to dominant autoregressive models, replacing strictly sequential token generation with iterative denoising and parallel generation dynamics. However, their open-source ecosystem remains fragmented across model families and, in particular, across post-training pipelines, where reinforcement learning objectives, rollout implementations and evaluation scripts are often released as paper-specific codebases. This fragmentation slows research iteration, raises the engineering burden of reproduction, and makes fair comparison across algorithms difficult. We present DARE (dLLMs Alignment and Reinforcement Executor), an open framework for post-training and evaluating dLLMs. Built on top of verl~sheng2024hybridflow and OpenCompass~2023opencompass, DARE unifies supervised fine-tuning, parameter-efficient fine-tuning, preference optimization, and dLLM-specific reinforcement learning under a shared execution stack for both masked and block diffusion language models. Across representative model families including LLaDA, Dream, SDAR, and LLaDA2.x, DARE provides broad algorithmic coverage, reproducible benchmark evaluation, and practical acceleration. Extensive empirical results position that DARE serves as a reusable research substrate for developing, comparing, and deploying post-training methods for current and emerging dLLMs.