過去は過去にあらず:記憶強化型動的報酬形成
The Past Is Not Past: Memory-Enhanced Dynamic Reward Shaping
April 13, 2026
著者: Yang Liu, Enxi Wang, Yufei Gao, Weixin Zhang, Bo Wang, Zhiyuan Zeng, Yikai Zhang, Yining Zheng, Xipeng Qiu
cs.AI
要旨
大規模言語モデルにおける強化学習の成功にもかかわらず、一般的な失敗モードとしてサンプリング多様性の低下が挙げられる。これは方策が類似した誤った行動を繰り返し生成する現象である。古典的なエントロピー正則化は現在の方策下でのランダム性を促進するが、ロールアウト間で反復する失敗パターンを明示的に抑制しない。本研究では、履歴的な行動信号を報酬設計に組み込むメモリ拡張型動的報酬形成(MEDS)フレームワークを提案する。中間層のモデル表現を保存・活用することで、過去のロールアウトの特徴を抽出し、密度ベースクラスタリングを用いて頻繁に繰り返される誤りパターンを特定する。より普遍的な誤りクラスタに割り当てられたロールアウトには重いペナルティを課し、反復ミスを減少させながら広範な探索を促進する。5つのデータセットと3つの基盤モデルを用いた実験において、MEDSは既存のベースラインを一貫して上回り、最大4.13 pass@1ポイント、4.37 pass@128ポイントの性能向上を達成した。LLMベースの注釈と定量的多様性指標を用いた追加分析により、MEDSがサンプリング中の行動多様性を増加させることを確認した。
English
Despite the success of reinforcement learning for large language models, a common failure mode is reduced sampling diversity, where the policy repeatedly generates similar erroneous behaviors. Classical entropy regularization encourages randomness under the current policy, but does not explicitly discourage recurrent failure patterns across rollouts. We propose MEDS, a Memory-Enhanced Dynamic reward Shaping framework that incorporates historical behavioral signals into reward design. By storing and leveraging intermediate model representations, we capture features of past rollouts and use density-based clustering to identify frequently recurring error patterns. Rollouts assigned to more prevalent error clusters are penalized more heavily, encouraging broader exploration while reducing repeated mistakes. Across five datasets and three base models, MEDS consistently improves average performance over existing baselines, achieving gains of up to 4.13 pass@1 points and 4.37 pass@128 points. Additional analyses using both LLM-based annotations and quantitative diversity metrics show that MEDS increases behavioral diversity during sampling.