DVAO: Optimización de Ventaja Adaptativa a la Varianza Dinámica para Aprendizaje por Refuerzo con Recompensas Múltiples

Resumen

El Aprendizaje por Refuerzo se ha convertido en un paradigma estándar para alinear Modelos de Lenguaje de Gran Escala con la intención humana y los requisitos de las tareas. Si bien la Optimización de Políticas Relativa a Grupos ofrece una alternativa eficiente y sin modelo de valor a la Optimización de Políticas Proximal, adaptarla a entornos de múltiples recompensas del mundo real sigue siendo un desafío. Las prácticas estándar de escalarización, como la Combinación de Recompensas y la Combinación de Ventajas, presentan inconvenientes significativos: la Combinación de Recompensas genera con frecuencia ventajas con magnitudes cuadráticas excesivamente grandes que provocan inestabilidad en el entrenamiento, mientras que la Combinación de Ventajas depende de hiperparámetros estáticos e ignora las correlaciones entre objetivos. Para abordar estas limitaciones, proponemos la Optimización de Ventajas Adaptativa a la Varianza Dinámica (DVAO), que ajusta dinámicamente los pesos de combinación basándose en la varianza empírica de la recompensa de cada objetivo dentro de un grupo de rodaje, incrementando eficazmente el peso de los objetivos con una señal de aprendizaje más fuerte y suprimiendo aquellos ruidosos. Demostramos matemáticamente que DVAO mantiene magnitudes de ventaja acotadas para un entrenamiento estable e introduce un mecanismo de regularización auto-adaptativa entre objetivos. Experimentos exhaustivos en tareas de razonamiento matemático y uso de herramientas con los modelos Qwen3 y Qwen2.5 muestran que DVAO supera significativamente a los métodos de referencia, logrando una frontera de Pareto multiobjetivo superior y una robusta estabilidad en el entrenamiento.

English

Reinforcement Learning has become a standard paradigm for aligning Large Language Models with human intent and task requirements. While Group Relative Policy Optimization offers an efficient, value-model-free alternative to Proximal Policy Optimization, adapting it to real-world multi-reward settings remains challenging. Standard scalarization practices, such as Reward Combination and Advantage Combination, suffer from significant drawbacks: Reward Combination frequently generates advantages with excessively large squared magnitudes that lead to training instability, while Advantage Combination relies on static hyperparameters and ignores cross-objective correlations. To address these limitations, we propose Dynamic Variance-adaptive Advantage Optimization (DVAO), which dynamically adjusts combination weights based on the empirical reward variance of each objective within a rollout group, effectively up-weighting objectives with a stronger learning signal while suppressing noisy ones. We mathematically prove that DVAO maintains bounded advantage magnitudes for stable training and introduces a self-adaptive cross-objective regularization mechanism. Extensive experiments on mathematical reasoning and tool-use benchmarks using Qwen3 and Qwen2.5 models demonstrate that DVAO significantly outperforms baseline methods, achieving a superior multi-objective Pareto frontier and robust training stability.