DVAO: Dynamische varianzadaptive Advantage-Optimierung für Multi-Belohnungs-Reinforcement Learning

Zusammenfassung

Reinforcement Learning ist zu einem Standardparadigma für die Ausrichtung großer Sprachmodelle an menschlichen Absichten und Aufgabenanforderungen geworden. Während Group Relative Policy Optimization eine effiziente, wertmodellfreie Alternative zu Proximal Policy Optimization bietet, bleibt die Anpassung an reale Multi-Belohnungs-Umgebungen herausfordernd. Übliche Skalarisierungsverfahren wie Reward Combination und Advantage Combination weisen erhebliche Nachteile auf: Reward Combination erzeugt häufig Vorteile mit übermäßig großen quadrierten Beträgen, die zu Trainingsinstabilität führen, während Advantage Combination auf statischen Hyperparametern beruht und zielübergreifende Korrelationen ignoriert. Um diese Einschränkungen zu beheben, schlagen wir Dynamic Variance-adaptive Advantage Optimization (DVAO) vor, das die Kombinationsgewichte dynamisch anhand der empirischen Belohnungsvarianz jedes Ziels innerhalb einer Rollout-Gruppe anpasst. Dabei werden Ziele mit einem stärkeren Lernsignal effektiv aufgewertet und verrauschte Ziele unterdrückt. Wir beweisen mathematisch, dass DVAO begrenzte Vorteilsbeträge für stabiles Training aufrechterhält und einen selbstadaptiven zielübergreifenden Regularisierungsmechanismus einführt. Umfangreiche Experimente an Benchmarks für mathematisches Denken und Werkzeugnutzung mit Qwen3- und Qwen2.5-Modellen zeigen, dass DVAO Basislinienmethoden deutlich übertrifft und eine überlegene multiobjektive Pareto-Grenze sowie robuste Trainingsstabilität erreicht.

English

Reinforcement Learning has become a standard paradigm for aligning Large Language Models with human intent and task requirements. While Group Relative Policy Optimization offers an efficient, value-model-free alternative to Proximal Policy Optimization, adapting it to real-world multi-reward settings remains challenging. Standard scalarization practices, such as Reward Combination and Advantage Combination, suffer from significant drawbacks: Reward Combination frequently generates advantages with excessively large squared magnitudes that lead to training instability, while Advantage Combination relies on static hyperparameters and ignores cross-objective correlations. To address these limitations, we propose Dynamic Variance-adaptive Advantage Optimization (DVAO), which dynamically adjusts combination weights based on the empirical reward variance of each objective within a rollout group, effectively up-weighting objectives with a stronger learning signal while suppressing noisy ones. We mathematically prove that DVAO maintains bounded advantage magnitudes for stable training and introduces a self-adaptive cross-objective regularization mechanism. Extensive experiments on mathematical reasoning and tool-use benchmarks using Qwen3 and Qwen2.5 models demonstrate that DVAO significantly outperforms baseline methods, achieving a superior multi-objective Pareto frontier and robust training stability.