DARE: Исполнитель по согласованию и подкреплению больших языковых моделей на основе диффузии

Аннотация

Диффузионные большие языковые модели (dLLM) становятся перспективной альтернативой доминирующим авторегрессионным моделям, заменяя строго последовательную генерацию токенов на итеративное шумоподавление и параллельную динамику генерации. Однако их экосистема с открытым исходным кодом остается разрозненной между семействами моделей и, в частности, между конвейерами пост-обучения, где цели обучения с подкреплением, реализации генерации (rollout) и скрипты оценки часто выпускаются в виде кодобаз, привязанных к конкретной научной статье. Эта фрагментация замедляет исследовательские итерации, увеличивает инженерную нагрузку при воспроизведении результатов и затрудняет объективное сравнение алгоритмов. Мы представляем DARE (dLLMs Alignment and Reinforcement Executor) — открытую платформу для пост-обучения и оценки dLLM. Построенная на базе verl~sheng2024hybridflow и OpenCompass~2023opencompass, DARE объединяет контролируемую тонкую настройку, параметрически-эффективную тонкую настройку, оптимизацию предпочтений и специфичное для dLLM обучение с подкреплением в рамках общего стека исполнения как для масочных, так и для блочных диффузионных языковых моделей. Для репрезентативных семейств моделей, включая LLaDA, Dream, SDAR и LLaDA2.x, DARE обеспечивает широкое алгоритмическое покрытие, воспроизводимую бенчмарк-оценку и практическое ускорение. Результаты масштабного эмпирического исследования показывают, что DARE служит переиспользуемым исследовательским субстратом для разработки, сравнения и развертывания методов пост-обучения для современных и перспективных dLLM.

English

Diffusion large language models (dLLMs) are emerging as a compelling alternative to dominant autoregressive models, replacing strictly sequential token generation with iterative denoising and parallel generation dynamics. However, their open-source ecosystem remains fragmented across model families and, in particular, across post-training pipelines, where reinforcement learning objectives, rollout implementations and evaluation scripts are often released as paper-specific codebases. This fragmentation slows research iteration, raises the engineering burden of reproduction, and makes fair comparison across algorithms difficult. We present DARE (dLLMs Alignment and Reinforcement Executor), an open framework for post-training and evaluating dLLMs. Built on top of verl~sheng2024hybridflow and OpenCompass~2023opencompass, DARE unifies supervised fine-tuning, parameter-efficient fine-tuning, preference optimization, and dLLM-specific reinforcement learning under a shared execution stack for both masked and block diffusion language models. Across representative model families including LLaDA, Dream, SDAR, and LLaDA2.x, DARE provides broad algorithmic coverage, reproducible benchmark evaluation, and practical acceleration. Extensive empirical results position that DARE serves as a reusable research substrate for developing, comparing, and deploying post-training methods for current and emerging dLLMs.

DARE: Исполнитель по согласованию и подкреплению больших языковых моделей на основе диффузии

DARE: Diffusion Large Language Models Alignment and Reinforcement Executor

Аннотация

Support