LFPO: Ottimizzazione della Politica Senza Verosimiglianza per Modelli di Diffusione con Mascheramento

Abstract

L'Apprendimento per Rinforzo con Ricompense Verificabili (RLVR) ha ottenuto notevoli successi nel migliorare i modelli autoregressivi, specialmente in domini che richiedono correttezza come il ragionamento matematico e la generazione di codice. Tuttavia, l'applicazione diretta di tali paradigmi ai Modelli Linguistici di Grande Dimensione basati su Diffusioni (dLLM) è fondamentalmente ostacolata dall'intrattabilità del calcolo esatto della verosimiglianza, che costringe i metodi esistenti a fare affidamento su approssimazioni ad alta varianza. Per colmare questa lacuna, proponiamo l'Ottimizzazione della Politica Senza Verosimiglianza (LFPO), un framework nativo che mappa il concetto di flusso di campo vettoriale allo spazio discreto dei token. Nello specifico, LFPO formula l'allineamento come una rettifica geometrica della velocità, ottimizzando direttamente i logit di denoising tramite aggiornamenti contrastivi. Questo progetto bypassa efficacemente gli errori intrinseci nell'approssimazione della verosimiglianza, producendo una stima precisa del gradiente. Inoltre, LFPO impone la coerenza predendo le soluzioni finali a partire da passi intermedi, raddrizzando efficacemente il flusso di probabilità per consentire una generazione di alta qualità con un numero significativamente inferiore di iterazioni. Esperimenti estensivi dimostrano che LFPO non solo supera gli stati dell'arte sui benchmark di codice e ragionamento, ma accelera anche l'inferenza di circa il 20% attraverso la riduzione dei passi di diffusione.

English

Reinforcement Learning with Verifiable Rewards (RLVR) has achieved remarkable success in improving autoregressive models, especially in domains requiring correctness like mathematical reasoning and code generation. However, directly applying such paradigms to Diffusion Large Language Models (dLLMs) is fundamentally hindered by the intractability of exact likelihood computation, which forces existing methods to rely on high-variance approximations. To bridge this gap, we propose Likelihood-Free Policy Optimization (LFPO), a native framework that maps the concept of vector field flow matching to the discrete token space. Specifically, LFPO formulates alignment as geometric velocity rectification, which directly optimizes denoising logits via contrastive updates. This design effectively bypasses the errors inherent in likelihood approximation, yielding the precise gradient estimation. Furthermore, LFPO enforce consistency by predicting final solutions from intermediate steps, effectively straightening the probability flow to enable high-quality generation with significantly fewer iterations. Extensive experiments demonstrate that LFPO not only outperforms state-of-the-art baselines on code and reasoning benchmarks but also accelerates inference by approximately 20% through reduced diffusion steps.

LFPO: Ottimizzazione della Politica Senza Verosimiglianza per Modelli di Diffusione con Mascheramento

LFPO: Likelihood-Free Policy Optimization for Masked Diffusion Models

Abstract

Support