LFPO: Waarschijnlijkheidsvrije Beleidsoptimalisatie voor Gemaskeerde Diffusiemodellen

Samenvatting

Versterkend Leren met Verifieerbare Beloningen (RLVR) heeft opmerkelijke successen geboekt in het verbeteren van autoregressieve modellen, met name in domeinen waar correctheid essentieel is, zoals wiskundig redeneren en codegeneratie. Het direct toepassen van dergelijke paradigma's op Diffusion Large Language Models (dLLM's) wordt echter fundamenteel belemmerd door de onberekenbaarheid van de exacte waarschijnlijkheid, waardoor bestaande methoden gedwongen zijn te vertrouwen op benaderingen met een hoge variantie. Om deze kloof te overbruggen, stellen we Likelihood-Free Policy Optimization (LFPO) voor, een native framework dat het concept van vectorveld-stromingsafstemming vertaalt naar de discrete tokenruimte. Concreet formuleert LFPO alignment als een geometrische rectificatie van snelheid, waarbij de denoising-logits direct worden geoptimaliseerd via contrastieve updates. Dit ontwerp omzeilt effectief de fouten die inherent zijn aan waarschijnlijkheidsbenadering, wat resulteert in een precieze gradientenschatting. Bovendien handhaaft LFPO consistentie door eindoplossingen te voorspellen uit tussenstappen, waardoor de waarschijnlijkheidsstroom effectief wordt rechtgetrokken om hoogwaardige generatie mogelijk te maken met aanzienlijk minder iteraties. Uitgebreide experimenten tonen aan dat LFPO niet alleen state-of-the-art baseline-methoden overtreft op code- en redeneerbenchmarks, maar ook de inferentie met ongeveer 20% versnelt door gereduceerde diffusiestappen.

English

Reinforcement Learning with Verifiable Rewards (RLVR) has achieved remarkable success in improving autoregressive models, especially in domains requiring correctness like mathematical reasoning and code generation. However, directly applying such paradigms to Diffusion Large Language Models (dLLMs) is fundamentally hindered by the intractability of exact likelihood computation, which forces existing methods to rely on high-variance approximations. To bridge this gap, we propose Likelihood-Free Policy Optimization (LFPO), a native framework that maps the concept of vector field flow matching to the discrete token space. Specifically, LFPO formulates alignment as geometric velocity rectification, which directly optimizes denoising logits via contrastive updates. This design effectively bypasses the errors inherent in likelihood approximation, yielding the precise gradient estimation. Furthermore, LFPO enforce consistency by predicting final solutions from intermediate steps, effectively straightening the probability flow to enable high-quality generation with significantly fewer iterations. Extensive experiments demonstrate that LFPO not only outperforms state-of-the-art baselines on code and reasoning benchmarks but also accelerates inference by approximately 20% through reduced diffusion steps.

LFPO: Waarschijnlijkheidsvrije Beleidsoptimalisatie voor Gemaskeerde Diffusiemodellen

LFPO: Likelihood-Free Policy Optimization for Masked Diffusion Models

Samenvatting

Support