Addomesticare i Modelli Linguistici a Diffusione Mascherata tramite Apprendimento per Rinforzo della Traiettoria di Consistenza con Meno Passaggi di Decodifica
Taming Masked Diffusion Language Models via Consistency Trajectory Reinforcement Learning with Fewer Decoding Step
September 28, 2025
Autori: Jingyi Yang, Guanxu Chen, Xuhao Hu, Jing Shao
cs.AI
Abstract
I modelli linguistici a diffusione mascherata (MDLM) sono emersi recentemente come una valida alternativa ai modelli linguistici autoregressivi (AR), offrendo proprietà come la decodifica parallela, ordini di generazione flessibili e il potenziale per un minor numero di passaggi di inferenza. Nonostante questi vantaggi, le strategie di decodifica e gli algoritmi di apprendimento per rinforzo (RL) specifici per gli MDLM rimangono poco esplorati. Un approccio ingenuo consiste nel trasferire direttamente tecniche ben consolidate per i modelli AR agli MDLM. Tuttavia, ciò solleva una domanda immediata: un tale trasferimento ingenuo è davvero ottimale? Ad esempio, 1) le strategie di decodifica a blocchi e semi-AR non vengono utilizzate durante l'addestramento degli MDLM, quindi perché superano la decodifica in stile diffusione completa durante l'inferenza? 2) L'applicazione diretta degli algoritmi RL progettati per i modelli AR agli MDLM mostra un'incongruenza tra addestramento e inferenza, poiché la decodifica degli MDLM è non-causale (parallela). Ciò si traduce in incongruenze tra la traiettoria di rollout e la traiettoria di ottimizzazione. Per affrontare queste sfide, proponiamo il meccanismo di Early Rejection di EOS (EOSER) e lo scheduler di decodifica Ascending Step-Size (ASS), che sbloccano il potenziale degli MDLM di eseguire una decodifica in stile diffusione completa, raggiungendo prestazioni competitive con un minor numero di passaggi di decodifica. Inoltre, introduciamo l'ottimizzazione della politica relativa per gruppi di traiettorie di consistenza (CJ-GRPO) per addestrare gli MDLM, che enfatizza la coerenza tra la traiettoria di rollout e la traiettoria di ottimizzazione, riducendo gli errori di ottimizzazione causati dall'ottimizzazione a passi saltati. Abbiamo condotto esperimenti estesi su compiti di ragionamento, come benchmark matematici e di pianificazione, utilizzando LLaDA-8B-Instruct. I risultati dimostrano che i meccanismi proposti EOSER e ASS, insieme a CJ-GRPO, mostrano un potenziale significativo per addestrare efficacemente ed efficientemente gli MDLM. Codice: https://github.com/yjyddq/EOSER-ASS-RL.
English
Masked diffusion language models (MDLMs) have recently emerged as a promising
alternative to autoregressive (AR) language models, offering properties such as
parallel decoding, flexible generation orders, and the potential for fewer
inference steps. Despite these advantages, decoding strategies and
reinforcement learning (RL) algorithms tailored for MDLMs remain underexplored.
A naive approach is to directly transfer techniques well-established for AR
models to MDLMs. However, this raises an immediate question: Is such a naive
transfer truly optimal? For example, 1) Block-wise and semi-AR decoding
strategies are not employed during the training of MDLMs, so why do they
outperform full diffusion-style decoding during inference? 2) Applying RL
algorithms designed for AR models directly to MDLMs exhibits a
training-inference inconsistency, since MDLM decoding are non-causal
(parallel). This results in inconsistencies between the rollout trajectory and
the optimization trajectory. To address these challenges, we propose EOS Early
Rejection (EOSER) and Ascending Step-Size (ASS) decoding scheduler, which
unlock the potential of MDLMs to perform full diffusion-style decoding,
achieving competitive performance with fewer decoding steps. Additionally, we
introduce Consistency Trajectory Group Relative Policy Optimization (CJ-GRPO)
for taming MDLMs, which emphasizes the consistency between rollout trajectory
and optimization trajectory, and reduces the optimization errors caused by
skip-step optimization. We conduct extensive experiments on reasoning tasks,
such as mathematical and planning benchmarks, using LLaDA-8B-Instruct. The
results demonstrate that the proposed EOSER and ASS mechanisms, together with
CJ-GRPO, hold significant promise for effectively and efficiently taming MDLMs.
Code: https://github.com/yjyddq/EOSER-ASS-RL.