Zähmung maskierter Diffusionssprachmodelle durch Konsistenz-Trajektorien-Verstärkungslernen mit weniger Dekodierungsschritten

papers.abstract

Masked Diffusion Language Models (MDLMs) haben sich kürzlich als vielversprechende Alternative zu autoregressiven (AR) Sprachmodellen etabliert, da sie Eigenschaften wie parallele Dekodierung, flexible Generierungsreihenfolgen und das Potenzial für weniger Inferenzschritte bieten. Trotz dieser Vorteile bleiben Dekodierungsstrategien und Reinforcement-Learning (RL)-Algorithmen, die speziell für MDLMs entwickelt wurden, weitgehend unerforscht. Ein naiver Ansatz besteht darin, Techniken, die sich für AR-Modelle bewährt haben, direkt auf MDLMs zu übertragen. Dies wirft jedoch die unmittelbare Frage auf: Ist eine solche naive Übertragung tatsächlich optimal? Beispielsweise 1) werden blockweise und semi-autoregressive Dekodierungsstrategien während des Trainings von MDLMs nicht eingesetzt – warum übertreffen sie dann die vollständige Diffusions-Dekodierung während der Inferenz? 2) Die direkte Anwendung von RL-Algorithmen, die für AR-Modelle entwickelt wurden, auf MDLMs zeigt eine Trainings-Inferenz-Inkonsistenz, da die MDLM-Dekodierung nicht-kausal (parallel) ist. Dies führt zu Inkonsistenzen zwischen dem Rollout-Pfad und dem Optimierungspfad. Um diese Herausforderungen zu bewältigen, schlagen wir den EOS Early Rejection (EOSER) und den Ascending Step-Size (ASS) Dekodierungsplaner vor, die das Potenzial von MDLMs freisetzen, eine vollständige Diffusions-Dekodierung durchzuführen und dabei mit weniger Dekodierungsschritten eine wettbewerbsfähige Leistung zu erzielen. Zusätzlich führen wir die Consistency Trajectory Group Relative Policy Optimization (CJ-GRPO) zur Steuerung von MDLMs ein, die die Konsistenz zwischen Rollout-Pfad und Optimierungspfad betont und die Optimierungsfehler, die durch Skip-Step-Optimierung verursacht werden, reduziert. Wir führen umfangreiche Experimente zu Denkaufgaben, wie mathematischen und Planungs-Benchmarks, mit LLaDA-8B-Instruct durch. Die Ergebnisse zeigen, dass die vorgeschlagenen EOSER- und ASS-Mechanismen zusammen mit CJ-GRPO ein erhebliches Potenzial für die effektive und effiziente Steuerung von MDLMs besitzen. Code: https://github.com/yjyddq/EOSER-ASS-RL.

English

Masked diffusion language models (MDLMs) have recently emerged as a promising alternative to autoregressive (AR) language models, offering properties such as parallel decoding, flexible generation orders, and the potential for fewer inference steps. Despite these advantages, decoding strategies and reinforcement learning (RL) algorithms tailored for MDLMs remain underexplored. A naive approach is to directly transfer techniques well-established for AR models to MDLMs. However, this raises an immediate question: Is such a naive transfer truly optimal? For example, 1) Block-wise and semi-AR decoding strategies are not employed during the training of MDLMs, so why do they outperform full diffusion-style decoding during inference? 2) Applying RL algorithms designed for AR models directly to MDLMs exhibits a training-inference inconsistency, since MDLM decoding are non-causal (parallel). This results in inconsistencies between the rollout trajectory and the optimization trajectory. To address these challenges, we propose EOS Early Rejection (EOSER) and Ascending Step-Size (ASS) decoding scheduler, which unlock the potential of MDLMs to perform full diffusion-style decoding, achieving competitive performance with fewer decoding steps. Additionally, we introduce Consistency Trajectory Group Relative Policy Optimization (CJ-GRPO) for taming MDLMs, which emphasizes the consistency between rollout trajectory and optimization trajectory, and reduces the optimization errors caused by skip-step optimization. We conduct extensive experiments on reasoning tasks, such as mathematical and planning benchmarks, using LLaDA-8B-Instruct. The results demonstrate that the proposed EOSER and ASS mechanisms, together with CJ-GRPO, hold significant promise for effectively and efficiently taming MDLMs. Code: https://github.com/yjyddq/EOSER-ASS-RL.

Zähmung maskierter Diffusionssprachmodelle durch Konsistenz-Trajektorien-Verstärkungslernen mit weniger Dekodierungsschritten

Taming Masked Diffusion Language Models via Consistency Trajectory Reinforcement Learning with Fewer Decoding Step

papers.abstract

Support