DVAO: Dynamische Variantie-adaptieve Voordeeloptimalisatie voor Multi-beloning Reinforcement Learning

Samenvatting

Reinforcement Learning is een standaardparadigma geworden voor het afstemmen van Large Language Modellen op menselijke intenties en taakvereisten. Hoewel Group Relative Policy Optimization een efficiënt, waarde-modelvrij alternatief biedt voor Proximal Policy Optimization, blijft het aanpassen ervan aan realistische multi-reward omgevingen uitdagend. Standaard scalarisation praktijken, zoals Reward Combination en Advantage Combination, hebben aanzienlijke nadelen: Reward Combination genereert vaak advantages met extreem grote gekwadrateerde magnitudes die leiden tot trainingsinstabiliteit, terwijl Advantage Combination afhankelijk is van statische hyperparameters en cross-objective correlaties negeert. Om deze beperkingen aan te pakken, stellen we Dynamic Variance-adaptive Advantage Optimization (DVAO) voor, dat dynamisch combinatiegewichten aanpast op basis van de empirische reward variantie van elke objective binnen een rollout group, waardoor objectives met een sterker leersignaal effectief worden opgewaardeerd en ruizige worden onderdrukt. We bewijzen wiskundig dat DVAO begrensde advantage magnitudes handhaaft voor stabiele training en een zelfadaptief cross-objective regularisatiemechanisme introduceert. Uitgebreide experimenten op wiskundige redeneer- en toolgebruik benchmarks met Qwen3 en Qwen2.5 modellen tonen aan dat DVAO significant beter presteert dan baseline methoden, met een superieure multi-objectieve Pareto frontier en robuuste trainingsstabiliteit.

English

Reinforcement Learning has become a standard paradigm for aligning Large Language Models with human intent and task requirements. While Group Relative Policy Optimization offers an efficient, value-model-free alternative to Proximal Policy Optimization, adapting it to real-world multi-reward settings remains challenging. Standard scalarization practices, such as Reward Combination and Advantage Combination, suffer from significant drawbacks: Reward Combination frequently generates advantages with excessively large squared magnitudes that lead to training instability, while Advantage Combination relies on static hyperparameters and ignores cross-objective correlations. To address these limitations, we propose Dynamic Variance-adaptive Advantage Optimization (DVAO), which dynamically adjusts combination weights based on the empirical reward variance of each objective within a rollout group, effectively up-weighting objectives with a stronger learning signal while suppressing noisy ones. We mathematically prove that DVAO maintains bounded advantage magnitudes for stable training and introduces a self-adaptive cross-objective regularization mechanism. Extensive experiments on mathematical reasoning and tool-use benchmarks using Qwen3 and Qwen2.5 models demonstrate that DVAO significantly outperforms baseline methods, achieving a superior multi-objective Pareto frontier and robust training stability.