SPG: Сэндвич-метод градиента политики для маскированных диффузионных языковых моделей

Аннотация

Диффузионные большие языковые модели (dLLMs) становятся эффективной альтернативой авторегрессивным моделям благодаря их способности декодировать несколько токенов параллельно. Однако согласование dLLM с человеческими предпочтениями или задачами, специфичными для вознаграждений, с помощью обучения с подкреплением (RL), является сложной задачей, поскольку их невычислимая логарифмическая вероятность исключает прямое применение стандартных методов градиента политики. Хотя предыдущие работы используют суррогаты, такие как нижняя граница доказательства (ELBO), эти односторонние аппроксимации могут вносить значительную погрешность в градиент политики. Для решения этой проблемы мы предлагаем метод "Сэндвич-градиент политики" (SPG), который использует как верхнюю, так и нижнюю границу истинной логарифмической вероятности. Эксперименты показывают, что SPG значительно превосходит базовые методы, основанные на ELBO или одношаговой оценке. В частности, SPG улучшает точность по сравнению с современными методами RL для dLLM на 3,6% в GSM8K, 2,6% в MATH500, 18,4% в Countdown и 27,0% в Sudoku.

English

Diffusion large language models (dLLMs) are emerging as an efficient alternative to autoregressive models due to their ability to decode multiple tokens in parallel. However, aligning dLLMs with human preferences or task-specific rewards via reinforcement learning (RL) is challenging because their intractable log-likelihood precludes the direct application of standard policy gradient methods. While prior work uses surrogates like the evidence lower bound (ELBO), these one-sided approximations can introduce significant policy gradient bias. To address this, we propose the Sandwiched Policy Gradient (SPG) that leverages both an upper and a lower bound of the true log-likelihood. Experiments show that SPG significantly outperforms baselines based on ELBO or one-step estimation. Specifically, SPG improves the accuracy over state-of-the-art RL methods for dLLMs by 3.6% in GSM8K, 2.6% in MATH500, 18.4% in Countdown and 27.0% in Sudoku.

SPG: Сэндвич-метод градиента политики для маскированных диффузионных языковых моделей

SPG: Sandwiched Policy Gradient for Masked Diffusion Language Models

Аннотация

Support