LFPO: Optimización de Políticas sin Verosimilitud para Modelos de Difusión Enmascarados

Resumen

El Aprendizaje por Refuerzo con Recompensas Verificables (RLVR) ha logrado un éxito notable en la mejora de modelos autorregresivos, especialmente en dominios que requieren corrección como el razonamiento matemático y la generación de código. Sin embargo, la aplicación directa de tales paradigmas a los Modelos de Lenguaje de Gran Escala de Difusión (dLLMs) se ve fundamentalmente obstaculizada por la intratabilidad del cálculo exacto de la verosimilitud, lo que obliga a los métodos existentes a depender de aproximaciones de alta varianza. Para salvar esta brecha, proponemos la Optimización de Políticas Libre de Verosimilitud (LFPO), un marco nativo que traslada el concepto de ajuste de flujo de campos vectoriales al espacio discreto de tokens. Específicamente, LFPO formula la alineación como una rectificación geométrica de velocidad, que optimiza directamente los logits de eliminación de ruido mediante actualizaciones contrastivas. Este diseño evita eficazmente los errores inherentes a la aproximación de verosimilitud, produciendo una estimación de gradiente precisa. Además, LFPO impone consistencia al predecir soluciones finales a partir de pasos intermedios, enderezando efectivamente el flujo de probabilidad para permitir una generación de alta calidad con significativamente menos iteraciones. Experimentos exhaustivos demuestran que LFPO no solo supera a los métodos de referencia más avanzados en benchmarks de código y razonamiento, sino que también acelera la inferencia en aproximadamente un 20% mediante la reducción de pasos de difusión.

English

Reinforcement Learning with Verifiable Rewards (RLVR) has achieved remarkable success in improving autoregressive models, especially in domains requiring correctness like mathematical reasoning and code generation. However, directly applying such paradigms to Diffusion Large Language Models (dLLMs) is fundamentally hindered by the intractability of exact likelihood computation, which forces existing methods to rely on high-variance approximations. To bridge this gap, we propose Likelihood-Free Policy Optimization (LFPO), a native framework that maps the concept of vector field flow matching to the discrete token space. Specifically, LFPO formulates alignment as geometric velocity rectification, which directly optimizes denoising logits via contrastive updates. This design effectively bypasses the errors inherent in likelihood approximation, yielding the precise gradient estimation. Furthermore, LFPO enforce consistency by predicting final solutions from intermediate steps, effectively straightening the probability flow to enable high-quality generation with significantly fewer iterations. Extensive experiments demonstrate that LFPO not only outperforms state-of-the-art baselines on code and reasoning benchmarks but also accelerates inference by approximately 20% through reduced diffusion steps.

LFPO: Optimización de Políticas sin Verosimilitud para Modelos de Difusión Enmascarados

LFPO: Likelihood-Free Policy Optimization for Masked Diffusion Models

Resumen

Support