LFPO: Otimização de Políticas Livre de Verossimilhança para Modelos de Difusão com Mascaramento

Resumo

O Aprendizado por Reforço com Recompensas Verificáveis (RLVR) tem alcançado sucesso notável na melhoria de modelos autoregressivos, especialmente em domínios que exigem correção, como raciocínio matemático e geração de código. No entanto, a aplicação direta de tais paradigmas aos Modelos de Linguagem de Grande Porte baseados em Difusão (dLLMs) é fundamentalmente impedida pela intratabilidade do cálculo exato da verossimilhança, o que força os métodos existentes a depender de aproximações de alta variância. Para preencher essa lacuna, propomos a Otimização de Política Livre de Verossimilhança (LFPO), uma estrutura nativa que mapeia o conceito de correspondência de fluxo de campo vetorial para o espaço discreto de tokens. Especificamente, a LFPO formula o alinhamento como uma retificação geométrica de velocidade, que otimiza diretamente os *logits* de remoção de ruído por meio de atualizações contrastivas. Este projeto contorna efetivamente os erros inerentes à aproximação de verossimilhança, produzindo uma estimativa de gradiente precisa. Além disso, a LFPO impõe consistência ao prever soluções finais a partir de etapas intermediárias, endireitando efetivamente o fluxo de probabilidade para permitir geração de alta qualidade com significativamente menos iterações. Experimentos extensivos demonstram que a LFPO não apenas supera os métodos state-of-the-art em benchmarks de código e raciocínio, mas também acelera a inferência em aproximadamente 20% através da redução de passos de difusão.

English

Reinforcement Learning with Verifiable Rewards (RLVR) has achieved remarkable success in improving autoregressive models, especially in domains requiring correctness like mathematical reasoning and code generation. However, directly applying such paradigms to Diffusion Large Language Models (dLLMs) is fundamentally hindered by the intractability of exact likelihood computation, which forces existing methods to rely on high-variance approximations. To bridge this gap, we propose Likelihood-Free Policy Optimization (LFPO), a native framework that maps the concept of vector field flow matching to the discrete token space. Specifically, LFPO formulates alignment as geometric velocity rectification, which directly optimizes denoising logits via contrastive updates. This design effectively bypasses the errors inherent in likelihood approximation, yielding the precise gradient estimation. Furthermore, LFPO enforce consistency by predicting final solutions from intermediate steps, effectively straightening the probability flow to enable high-quality generation with significantly fewer iterations. Extensive experiments demonstrate that LFPO not only outperforms state-of-the-art baselines on code and reasoning benchmarks but also accelerates inference by approximately 20% through reduced diffusion steps.

LFPO: Otimização de Políticas Livre de Verossimilhança para Modelos de Difusão com Mascaramento

LFPO: Likelihood-Free Policy Optimization for Masked Diffusion Models

Resumo

Support