LFPO: Оптимизация стратегии без использования правдоподобия для маскированных диффузионных моделей

Аннотация

Подход RLVR (обучение с подкреплением с верифицируемыми вознаграждениями) показал значительный успех в улучшении авторегрессионных моделей, особенно в областях, требующих высокой точности, таких как математические рассуждения и генерация кода. Однако прямое применение таких парадигм к диффузионным большим языковым моделям (dLLM) принципиально ограничено вычислительной неразрешимостью точного вычисления правдоподобия, что вынуждает существующие методы полагаться на приближения с высокой дисперсией. Для преодоления этого разрыва мы предлагаем LFPO (бесправдоподобную оптимизацию политики) — нативную архитектуру, которая проецирует концепцию согласования векторных полей на дискретное пространство токенов. В частности, LFPO формулирует согласование как геометрическую коррекцию скорости, напрямую оптимизируя логиты денойзинга с помощью контрастных обновлений. Данная конструкция эффективно обходит ошибки, присущие аппроксимации правдоподобия, обеспечивая точную оценку градиента. Кроме того, LFPO обеспечивает согласованность, прогнозируя конечные решения из промежуточных шагов, эффективно выпрямляя поток вероятностей для генерации высококачественных результатов при значительно меньшем числе итераций. Многочисленные эксперименты демонстрируют, что LFPO не только превосходит современные базовые методы на тестах по коду и логическим рассуждениям, но и ускоряет вывод примерно на 20% за счёт сокращения шагов диффузии.

English

Reinforcement Learning with Verifiable Rewards (RLVR) has achieved remarkable success in improving autoregressive models, especially in domains requiring correctness like mathematical reasoning and code generation. However, directly applying such paradigms to Diffusion Large Language Models (dLLMs) is fundamentally hindered by the intractability of exact likelihood computation, which forces existing methods to rely on high-variance approximations. To bridge this gap, we propose Likelihood-Free Policy Optimization (LFPO), a native framework that maps the concept of vector field flow matching to the discrete token space. Specifically, LFPO formulates alignment as geometric velocity rectification, which directly optimizes denoising logits via contrastive updates. This design effectively bypasses the errors inherent in likelihood approximation, yielding the precise gradient estimation. Furthermore, LFPO enforce consistency by predicting final solutions from intermediate steps, effectively straightening the probability flow to enable high-quality generation with significantly fewer iterations. Extensive experiments demonstrate that LFPO not only outperforms state-of-the-art baselines on code and reasoning benchmarks but also accelerates inference by approximately 20% through reduced diffusion steps.

LFPO: Оптимизация стратегии без использования правдоподобия для маскированных диффузионных моделей

LFPO: Likelihood-Free Policy Optimization for Masked Diffusion Models

Аннотация

Support