ChatPaper.aiChatPaper

LLaDA 1.5: Optimización de Preferencias con Reducción de Varianza para Modelos de Difusión de Lenguaje a Gran Escala

LLaDA 1.5: Variance-Reduced Preference Optimization for Large Language Diffusion Models

May 25, 2025
Autores: Fengqi Zhu, Rongzhen Wang, Shen Nie, Xiaolu Zhang, Chunwei Wu, Jun Hu, Jun Zhou, Jianfei Chen, Yankai Lin, Ji-Rong Wen, Chongxuan Li
cs.AI

Resumen

Si bien los Modelos de Difusión Enmascarada (MDMs, por sus siglas en inglés), como LLaDA, presentan un paradigma prometedor para el modelado del lenguaje, se ha realizado relativamente poco esfuerzo en alinear estos modelos con las preferencias humanas mediante el aprendizaje por refuerzo. El desafío surge principalmente de la alta varianza en las estimaciones de probabilidad basadas en el Límite Inferior de la Evidencia (ELBO, por sus siglas en inglés) requeridas para la optimización de preferencias. Para abordar este problema, proponemos la Optimización de Preferencias con Reducción de Varianza (VRPO, por sus siglas en inglés), un marco que analiza formalmente la varianza de los estimadores ELBO y deriva límites tanto en el sesgo como en la varianza de los gradientes de optimización de preferencias. Basándonos en este fundamento teórico, introducimos estrategias de reducción de varianza sin sesgo, incluyendo la asignación óptima del presupuesto de Monte Carlo y el muestreo antitético, que mejoran significativamente el rendimiento de la alineación de los MDMs. Demostramos la efectividad de VRPO aplicándolo a LLaDA, y el modelo resultante, LLaDA 1.5, supera consistentemente y de manera significativa a su predecesor entrenado únicamente con ajuste fino supervisado (SFT) en benchmarks matemáticos (GSM8K +4.7), de código (HumanEval +3.0, MBPP +1.8) y de alineación (IFEval +4.0, Arena-Hard +4.3). Además, LLaDA 1.5 demuestra un rendimiento matemático altamente competitivo en comparación con otros MDMs y ARMs de lenguaje potentes. Página del proyecto: https://ml-gsai.github.io/LLaDA-1.5-Demo/.
English
While Masked Diffusion Models (MDMs), such as LLaDA, present a promising paradigm for language modeling, there has been relatively little effort in aligning these models with human preferences via reinforcement learning. The challenge primarily arises from the high variance in Evidence Lower Bound (ELBO)-based likelihood estimates required for preference optimization. To address this issue, we propose Variance-Reduced Preference Optimization (VRPO), a framework that formally analyzes the variance of ELBO estimators and derives bounds on both the bias and variance of preference optimization gradients. Building on this theoretical foundation, we introduce unbiased variance reduction strategies, including optimal Monte Carlo budget allocation and antithetic sampling, that significantly improve the performance of MDM alignment. We demonstrate the effectiveness of VRPO by applying it to LLaDA, and the resulting model, LLaDA 1.5, outperforms its SFT-only predecessor consistently and significantly across mathematical (GSM8K +4.7), code (HumanEval +3.0, MBPP +1.8), and alignment benchmarks (IFEval +4.0, Arena-Hard +4.3). Furthermore, LLaDA 1.5 demonstrates a highly competitive mathematical performance compared to strong language MDMs and ARMs. Project page: https://ml-gsai.github.io/LLaDA-1.5-Demo/.

Summary

AI-Generated Summary

PDF82May 27, 2025