ChatPaper.aiChatPaper

動的報酬重み付けによる多目的アライメント最適化の学習

Learning to Optimize Multi-Objective Alignment Through Dynamic Reward Weighting

September 14, 2025
著者: Yining Lu, Zilong Wang, Shiyang Li, Xin Liu, Changlong Yu, Qingyu Yin, Zhan Shi, Zixuan Zhang, Meng Jiang
cs.AI

要旨

多目的強化学習における従来の研究では、通常、固定された重みを用いた線形報酬スカラリゼーションが採用されており、非凸なパレートフロントを捉えることができないことが証明されており、その結果、最適ではない結果が得られていました。この制限は、大規模言語モデルのオンライン選好調整において特に深刻です。ここでは、パラメータ化されたポリシーによって生成される確率的軌跡が、パラメータから目的への高度に非線形かつ非凸なマッピングを作り出し、単一の静的加重スキームでは最適なトレードオフを見つけることができません。この制限に対処するために、動的報酬加重を導入し、オンライン強化学習プロセス中に報酬の重みを適応的に調整します。固定重み補間に依存する既存のアプローチとは異なり、我々の動的加重はトレーニング中に目的を継続的にバランスさせ優先順位を付け、目的空間におけるパレートフロントの効果的な探索を促進します。我々は、洗練度と汎用性を増した2つのアプローチを紹介します:(1) ハイパーボリューム誘導型重み適応と (2) 勾配ベースの重み最適化で、オンライン多目的調整のための汎用的なツールキットを提供します。広範な実験により、一般的に使用されるオンライン強化学習アルゴリズム(GRPO、REINFORCE、RLOOを含む)との互換性、複数の数学的推論データセットにおける有効性、および異なるモデルファミリーへの適用性が実証され、固定重み線形スカラリゼーションベースラインよりも少ないトレーニングステップでパレート支配解を一貫して達成することが示されました。
English
Prior works in multi-objective reinforcement learning typically use linear reward scalarization with fixed weights, which provably fail to capture non-convex Pareto fronts and thus yield suboptimal results. This limitation becomes especially critical in online preference alignment for large language models. Here, stochastic trajectories generated by parameterized policies create highly non-linear and non-convex mappings from parameters to objectives that no single static weighting scheme can find optimal trade-offs. We address this limitation by introducing dynamic reward weighting, which adaptively adjusts reward weights during the online reinforcement learning process. Unlike existing approaches that rely on fixed-weight interpolation, our dynamic weighting continuously balances and prioritizes objectives in training, facilitating effective exploration of Pareto fronts in objective space. We introduce two approaches of increasing sophistication and generalizability: (1) hypervolume-guided weight adaptation and (2) gradient-based weight optimization, offering a versatile toolkit for online multi-objective alignment. Our extensive experiments demonstrate their compatibility with commonly used online reinforcement learning algorithms (including GRPO, REINFORCE, and RLOO), effectiveness across multiple mathematical reasoning datasets, and applicability to different model families, consistently achieving Pareto dominant solutions with fewer training steps than fixed-weight linear scalarization baselines.
PDF133September 16, 2025