LFPO : Optimisation de Politique Sans Vraisemblance pour Modèles de Diffusion à Masquage

Résumé

L'apprentissage par renforcement avec récompenses vérifiables (RLVR) a obtenu des succès remarquables dans l'amélioration des modèles autorégressifs, particulièrement dans les domaines exigeant de l'exactitude comme le raisonnement mathématique et la génération de code. Cependant, l'application directe de tels paradigmes aux modèles de langage de grande taille à diffusion (dLLM) est fondamentalement entravée par l'impossibilité de calculer la vraisemblance exacte, ce qui contraint les méthodes existantes à s'appuyer sur des approximations à forte variance. Pour combler cette lacune, nous proposons l'optimisation de politique sans vraisemblance (LFPO), un cadre natif qui transpose le concept d'ajustement de flux de champ vectoriel à l'espace discret des tokens. Concrètement, LFPO formule l'alignement comme une rectification géométrique de vitesse, optimisant directement les logits de dé-bruitage via des mises à jour contrastives. Cette conception contourne efficacement les erreurs inhérentes à l'approximation de vraisemblance, produisant une estimation précise du gradient. De plus, LFPO impose la cohérence en prédisant les solutions finales à partir d'étapes intermédiaires, redressant efficacement le flux de probabilité pour permettre une génération de haute qualité avec significativement moins d'itérations. Des expériences approfondies démontrent que LFPO surpasse non seulement les meilleures méthodes de référence sur les benchmarks de code et de raisonnement, mais accélère aussi l'inférence d'environ 20 % grâce à la réduction des étapes de diffusion.

English

Reinforcement Learning with Verifiable Rewards (RLVR) has achieved remarkable success in improving autoregressive models, especially in domains requiring correctness like mathematical reasoning and code generation. However, directly applying such paradigms to Diffusion Large Language Models (dLLMs) is fundamentally hindered by the intractability of exact likelihood computation, which forces existing methods to rely on high-variance approximations. To bridge this gap, we propose Likelihood-Free Policy Optimization (LFPO), a native framework that maps the concept of vector field flow matching to the discrete token space. Specifically, LFPO formulates alignment as geometric velocity rectification, which directly optimizes denoising logits via contrastive updates. This design effectively bypasses the errors inherent in likelihood approximation, yielding the precise gradient estimation. Furthermore, LFPO enforce consistency by predicting final solutions from intermediate steps, effectively straightening the probability flow to enable high-quality generation with significantly fewer iterations. Extensive experiments demonstrate that LFPO not only outperforms state-of-the-art baselines on code and reasoning benchmarks but also accelerates inference by approximately 20% through reduced diffusion steps.

LFPO : Optimisation de Politique Sans Vraisemblance pour Modèles de Diffusion à Masquage

LFPO: Likelihood-Free Policy Optimization for Masked Diffusion Models

Résumé

Support