SPG : Gradient de Politique en Sandwich pour les Modèles de Langage à Diffusion Masquée

papers.abstract

Les modèles de langage à grande échelle par diffusion (dLLM) émergent comme une alternative efficace aux modèles autorégressifs grâce à leur capacité à décoder plusieurs tokens en parallèle. Cependant, aligner les dLLM avec les préférences humaines ou les récompenses spécifiques à une tâche via l'apprentissage par renforcement (RL) est difficile car leur log-vraisemblance intraçable empêche l'application directe des méthodes classiques de gradient de politique. Bien que les travaux antérieurs utilisent des substituts comme la borne inférieure de l'évidence (ELBO), ces approximations unilatérales peuvent introduire un biais significatif dans le gradient de politique. Pour résoudre ce problème, nous proposons le Gradient de Politique Sandwich (SPG) qui exploite à la fois une borne supérieure et une borne inférieure de la vraie log-vraisemblance. Les expériences montrent que le SPG surpasse significativement les méthodes de référence basées sur l'ELBO ou l'estimation en une étape. Plus précisément, le SPG améliore la précision par rapport aux méthodes RL de pointe pour les dLLM de 3,6 % dans GSM8K, 2,6 % dans MATH500, 18,4 % dans Countdown et 27,0 % dans Sudoku.

English

Diffusion large language models (dLLMs) are emerging as an efficient alternative to autoregressive models due to their ability to decode multiple tokens in parallel. However, aligning dLLMs with human preferences or task-specific rewards via reinforcement learning (RL) is challenging because their intractable log-likelihood precludes the direct application of standard policy gradient methods. While prior work uses surrogates like the evidence lower bound (ELBO), these one-sided approximations can introduce significant policy gradient bias. To address this, we propose the Sandwiched Policy Gradient (SPG) that leverages both an upper and a lower bound of the true log-likelihood. Experiments show that SPG significantly outperforms baselines based on ELBO or one-step estimation. Specifically, SPG improves the accuracy over state-of-the-art RL methods for dLLMs by 3.6% in GSM8K, 2.6% in MATH500, 18.4% in Countdown and 27.0% in Sudoku.

SPG : Gradient de Politique en Sandwich pour les Modèles de Langage à Diffusion Masquée

SPG: Sandwiched Policy Gradient for Masked Diffusion Language Models

papers.abstract

Support