ChatPaper.aiChatPaper

すべての問いには価値がある:明示的な人間の価値観を用いた強化学習

Every Question Has Its Own Value: Reinforcement Learning with Explicit Human Values

October 23, 2025
著者: Dian Yu, Yulai Zhao, Kishan Panaganti, Linfeng Song, Haitao Mi, Dong Yu
cs.AI

要旨

我々は、大規模言語モデル(LLM)の最適化を定量化可能な人間の価値信号に直接整合させる手法である、**明示的人間価値強化学習(Reinforcement Learning with Explicit Human Values, RLEV)** を提案する。検証可能な報酬による強化学習(RLVR)は、二値的な正解報酬を用いて客観的領域でモデルを効果的に学習させるが、全てのタスクが同等に重要ではないという点を見落としている。RLEVはこの枠組みを拡張し、人間が定義した価値信号を報酬関数に直接組み込む。明示的な正解価値ラベル付きの試験形式データを用いた実験により、RLEVは複数のRLアルゴリズムとモデル規模において、正解のみを基準としたベースライン手法を一貫して上回ることを示す。決定的に、RLEVの方策は価値加重精度を向上させるだけでなく、**価値に敏感な終了方策**も学習する。すなわち、低価値のプロンプトには簡潔に、高価値のプロンプトには徹底的に応答する。この振る舞いが、系列終端トークンに対する価値加重勾配増幅に起因することを実証する。アブレーション研究は、性能向上が価値整合に因果的に結びついていることを確認する。RLEVは、難易度に基づくラベルなどのノイズを含む価値信号下でも頑健性を維持し、明示的な効用関数に対する最適化が、LLMを人間の優先順位に整合させる現実的な道筋を提供することを示す。
English
We propose Reinforcement Learning with Explicit Human Values (RLEV), a method that aligns Large Language Model (LLM) optimization directly with quantifiable human value signals. While Reinforcement Learning with Verifiable Rewards (RLVR) effectively trains models in objective domains using binary correctness rewards, it overlooks that not all tasks are equally significant. RLEV extends this framework by incorporating human-defined value signals directly into the reward function. Using exam-style data with explicit ground-truth value labels, RLEV consistently outperforms correctness-only baselines across multiple RL algorithms and model scales. Crucially, RLEV policies not only improve value-weighted accuracy but also learn a value-sensitive termination policy: concise for low-value prompts, thorough for high-value ones. We demonstrate this behavior stems from value-weighted gradient amplification on end-of-sequence tokens. Ablation studies confirm the gain is causally linked to value alignment. RLEV remains robust under noisy value signals, such as difficulty-based labels, demonstrating that optimizing for an explicit utility function offers a practical path to aligning LLMs with human priorities.
PDF182December 2, 2025