DVAO : Optimisation d'avantage adaptative à variance dynamique pour l'apprentissage par renforcement multi-récompenses

Résumé

L'apprentissage par renforcement est devenu un paradigme standard pour aligner les grands modèles de langage sur les intentions humaines et les exigences des tâches. Bien que l'Optimisation Relative de Politique par Groupes (Group Relative Policy Optimization, GRPO) offre une alternative efficace, sans modèle de valeur, à l'Optimisation de Politique Proximale (Proximal Policy Optimization, PPO), son adaptation à des contextes multi-récompenses réels reste difficile. Les pratiques standard de scalarisation, telles que la Combinaison de Récompenses (Reward Combination) et la Combinaison d'Avantages (Advantage Combination), présentent des inconvénients majeurs : la Combinaison de Récompenses génère fréquemment des avantages avec des magnitudes carrées excessivement grandes entraînant une instabilité d'entraînement, tandis que la Combinaison d'Avantages repose sur des hyperparamètres statiques et ignore les corrélations entre objectifs. Pour remédier à ces limitations, nous proposons l'Optimisation Dynamique d'Avantage Adaptative à la Variance (Dynamic Variance-adaptive Advantage Optimization, DVAO), qui ajuste dynamiquement les poids de combinaison en fonction de la variance empirique des récompenses de chaque objectif au sein d'un groupe de déploiement, augmentant efficacement le poids des objectifs avec un signal d'apprentissage plus fort tout en supprimant ceux qui sont bruyants. Nous prouvons mathématiquement que DVAO maintient des magnitudes d'avantage bornées pour un entraînement stable et introduit un mécanisme de régularisation croisée auto-adaptatif entre objectifs. Des expériences approfondies sur des références de raisonnement mathématique et d'utilisation d'outils utilisant les modèles Qwen3 et Qwen2.5 démontrent que DVAO surpasse significativement les méthodes de base, atteignant une frontière de Pareto multi-objectifs supérieure et une robustesse d'entraînement stable.

English

Reinforcement Learning has become a standard paradigm for aligning Large Language Models with human intent and task requirements. While Group Relative Policy Optimization offers an efficient, value-model-free alternative to Proximal Policy Optimization, adapting it to real-world multi-reward settings remains challenging. Standard scalarization practices, such as Reward Combination and Advantage Combination, suffer from significant drawbacks: Reward Combination frequently generates advantages with excessively large squared magnitudes that lead to training instability, while Advantage Combination relies on static hyperparameters and ignores cross-objective correlations. To address these limitations, we propose Dynamic Variance-adaptive Advantage Optimization (DVAO), which dynamically adjusts combination weights based on the empirical reward variance of each objective within a rollout group, effectively up-weighting objectives with a stronger learning signal while suppressing noisy ones. We mathematically prove that DVAO maintains bounded advantage magnitudes for stable training and introduces a self-adaptive cross-objective regularization mechanism. Extensive experiments on mathematical reasoning and tool-use benchmarks using Qwen3 and Qwen2.5 models demonstrate that DVAO significantly outperforms baseline methods, achieving a superior multi-objective Pareto frontier and robust training stability.