DVAO: Динамическая дисперсионно-адаптивная оптимизация преимущества для многонаградного обучения с подкреплением

Аннотация

Обучение с подкреплением стало стандартной парадигмой для согласования больших языковых моделей с намерениями человека и требованиями задачи. Хотя групповая относительная оптимизация политики предлагает эффективную альтернативу проксимальной оптимизации политики без использования модели ценности, её адаптация к многокритериальным задачам в реальных условиях остаётся сложной. Стандартные подходы скаляризации, такие как комбинация вознаграждений и комбинация преимуществ, имеют существенные недостатки: комбинация вознаграждений часто порождает преимущества с чрезмерно большими квадратичными значениями, что приводит к нестабильности обучения, в то время как комбинация преимуществ опирается на статические гиперпараметры и игнорирует корреляции между различными целями. Для преодоления этих ограничений мы предлагаем метод динамической вариационно-адаптивной оптимизации преимуществ (DVAO), который динамически корректирует веса комбинации на основе эмпирической дисперсии вознаграждений каждой цели в рамках группы развертывания, эффективно увеличивая вес целей с более сильным обучающим сигналом и подавляя зашумлённые. Мы математически доказываем, что DVAO сохраняет ограниченные значения преимуществ для стабильного обучения и вводит механизм самоадаптивной регуляризации между различными целями. Обширные эксперименты на задачах математических рассуждений и тестах использования инструментов с моделями Qwen3 и Qwen2.5 показывают, что DVAO значительно превосходит базовые методы, обеспечивая лучшую многокритериальную границу Парето и устойчивую стабильность обучения.

English

Reinforcement Learning has become a standard paradigm for aligning Large Language Models with human intent and task requirements. While Group Relative Policy Optimization offers an efficient, value-model-free alternative to Proximal Policy Optimization, adapting it to real-world multi-reward settings remains challenging. Standard scalarization practices, such as Reward Combination and Advantage Combination, suffer from significant drawbacks: Reward Combination frequently generates advantages with excessively large squared magnitudes that lead to training instability, while Advantage Combination relies on static hyperparameters and ignores cross-objective correlations. To address these limitations, we propose Dynamic Variance-adaptive Advantage Optimization (DVAO), which dynamically adjusts combination weights based on the empirical reward variance of each objective within a rollout group, effectively up-weighting objectives with a stronger learning signal while suppressing noisy ones. We mathematically prove that DVAO maintains bounded advantage magnitudes for stable training and introduces a self-adaptive cross-objective regularization mechanism. Extensive experiments on mathematical reasoning and tool-use benchmarks using Qwen3 and Qwen2.5 models demonstrate that DVAO significantly outperforms baseline methods, achieving a superior multi-objective Pareto frontier and robust training stability.