批判的ポスト編集による強化学習を介した忠実かつ制御可能なパーソナライゼーションに向けて
Towards Faithful and Controllable Personalization via Critique-Post-Edit Reinforcement Learning
October 21, 2025
著者: Chenghao Zhu, Meiling Tao, Tiannan Wang, Dongyi Ding, Yuchen Eleanor Jiang, Wangchunshu Zhou
cs.AI
要旨
大規模言語モデル(LLM)を個々のユーザーの好みに忠実にパーソナライズすることは、重要な課題であるが、同時に困難なタスクでもある。教師ありファインチューニング(SFT)は迅速に性能の頭打ちに達し、人間のフィードバックからの標準的な強化学習(RLHF)もパーソナライズの微妙なニュアンスに対応するのに苦戦している。スカラーベースの報酬モデルは報酬ハッキングに陥りやすく、冗長で表面的にパーソナライズされた応答を引き起こす。これらの制約を解決するため、我々は「Critique-Post-Edit」を提案する。これは、より忠実で制御可能なパーソナライズを実現する堅牢な強化学習フレームワークである。本フレームワークは、以下の2つの主要なコンポーネントを統合している:(1)報酬ハッキングに抵抗する多次元スコアとテキスト批評を提供するパーソナライズド生成報酬モデル(GRM)、および(2)ポリシーモデルがこれらの批評に基づいて自身の出力を修正し、より的を絞った効率的な学習を実現する「Critique-Post-Edit」メカニズムである。厳密な長さ制御評価の下で、我々の手法はパーソナライズベンチマークにおいて標準的なPPOを大幅に上回る性能を示した。パーソナライズドQwen2.5-7Bは平均11%の勝率向上を達成し、パーソナライズドQwen2.5-14BモデルはGPT-4.1の性能を凌駕した。これらの結果は、忠実で効率的かつ制御可能なパーソナライズへの実践的な道筋を示している。
English
Faithfully personalizing large language models (LLMs) to align with
individual user preferences is a critical but challenging task. While
supervised fine-tuning (SFT) quickly reaches a performance plateau, standard
reinforcement learning from human feedback (RLHF) also struggles with the
nuances of personalization. Scalar-based reward models are prone to reward
hacking which leads to verbose and superficially personalized responses. To
address these limitations, we propose Critique-Post-Edit, a robust
reinforcement learning framework that enables more faithful and controllable
personalization. Our framework integrates two key components: (1) a
Personalized Generative Reward Model (GRM) that provides multi-dimensional
scores and textual critiques to resist reward hacking, and (2) a
Critique-Post-Edit mechanism where the policy model revises its own outputs
based on these critiques for more targeted and efficient learning. Under a
rigorous length-controlled evaluation, our method substantially outperforms
standard PPO on personalization benchmarks. Personalized Qwen2.5-7B achieves an
average 11\% win-rate improvement, and personalized Qwen2.5-14B model surpasses
the performance of GPT-4.1. These results demonstrate a practical path to
faithful, efficient, and controllable personalization.