DARE : Exécuteur d'Alignement et de Renforcement pour les Grands Modèles de Langage par Diffusion

Résumé

Les modèles de langage à diffusion à grande échelle (dLLM) émergent comme une alternative convaincante aux modèles autorégressifs dominants, remplaçant la génération strictement séquentielle de tokens par une dynamique de génération parallèle et de dé-bruitage itératif. Cependant, leur écosystème open source reste fragmenté entre les familles de modèles et, en particulier, entre les pipelines de post-formation, où les objectifs d'apprentissage par renforcement, les implémentations de déploiement et les scripts d'évaluation sont souvent publiés sous forme de bases de code spécifiques à un article. Cette fragmentation ralentit l'itération de la recherche, alourdit la charge technique de reproduction et rend difficile la comparaison équitable des algorithmes. Nous présentons DARE (dLLMs Alignment and Reinforcement Executor), un cadre ouvert pour la post-formation et l'évaluation des dLLM. Construit sur verl~sheng2024hybridflow et OpenCompass~2023opencompass, DARE unifie le réglage fin supervisé, le réglage fin efficace en paramètres, l'optimisation des préférences et l'apprentissage par renforcement spécifique aux dLLM sous une pile d'exécution commune pour les modèles de langage à diffusion masquée et par blocs. Sur un ensemble de familles de modèles représentatives, incluant LLaDA, Dream, SDAR et LLaDA2.x, DARE offre une couverture algorithmique étendue, une évaluation reproductible par benchmark et une accélération pratique. Des résultats empiriques approfondis positionnent DARE comme un substrat de recherche réutilisable pour développer, comparer et déployer des méthodes de post-formation pour les dLLM actuels et émergents.

English

Diffusion large language models (dLLMs) are emerging as a compelling alternative to dominant autoregressive models, replacing strictly sequential token generation with iterative denoising and parallel generation dynamics. However, their open-source ecosystem remains fragmented across model families and, in particular, across post-training pipelines, where reinforcement learning objectives, rollout implementations and evaluation scripts are often released as paper-specific codebases. This fragmentation slows research iteration, raises the engineering burden of reproduction, and makes fair comparison across algorithms difficult. We present DARE (dLLMs Alignment and Reinforcement Executor), an open framework for post-training and evaluating dLLMs. Built on top of verl~sheng2024hybridflow and OpenCompass~2023opencompass, DARE unifies supervised fine-tuning, parameter-efficient fine-tuning, preference optimization, and dLLM-specific reinforcement learning under a shared execution stack for both masked and block diffusion language models. Across representative model families including LLaDA, Dream, SDAR, and LLaDA2.x, DARE provides broad algorithmic coverage, reproducible benchmark evaluation, and practical acceleration. Extensive empirical results position that DARE serves as a reusable research substrate for developing, comparing, and deploying post-training methods for current and emerging dLLMs.

DARE : Exécuteur d'Alignement et de Renforcement pour les Grands Modèles de Langage par Diffusion

DARE: Diffusion Large Language Models Alignment and Reinforcement Executor

Résumé

Support