Naar Getrouwe en Beheersbare Personalisatie via Kritiek-Post-Bewerking Versterkend Leren
Towards Faithful and Controllable Personalization via Critique-Post-Edit Reinforcement Learning
October 21, 2025
Auteurs: Chenghao Zhu, Meiling Tao, Tiannan Wang, Dongyi Ding, Yuchen Eleanor Jiang, Wangchunshu Zhou
cs.AI
Samenvatting
Het nauwkeurig personaliseren van grote taalmodellen (LLMs) om af te stemmen op individuele gebruikersvoorkeuren is een cruciale maar uitdagende taak. Hoewel supervised fine-tuning (SFT) snel een prestatieplateau bereikt, worstelt ook standaard reinforcement learning from human feedback (RLHF) met de nuances van personalisatie. Scalar-gebaseerde beloningsmodellen zijn gevoelig voor reward hacking, wat leidt tot uitgebreide en oppervlakkig gepersonaliseerde reacties. Om deze beperkingen aan te pakken, stellen we Critique-Post-Edit voor, een robuust reinforcement learning-framework dat een meer trouwe en controleerbare personalisatie mogelijk maakt. Ons framework integreert twee belangrijke componenten: (1) een Personalized Generative Reward Model (GRM) dat multidimensionale scores en tekstuele kritieken biedt om reward hacking te weerstaan, en (2) een Critique-Post-Edit-mechanisme waarbij het beleidsmodel zijn eigen uitvoer herziet op basis van deze kritieken voor meer gericht en efficiënt leren. Onder een rigoureuze lengte-gecontroleerde evaluatie presteert onze methode aanzienlijk beter dan standaard PPO op personalisatiebenchmarks. Het gepersonaliseerde Qwen2.5-7B-model behaalt een gemiddelde win-rate verbetering van 11%, en het gepersonaliseerde Qwen2.5-14B-model overtreft de prestaties van GPT-4.1. Deze resultaten tonen een praktische weg naar trouwe, efficiënte en controleerbare personalisatie.
English
Faithfully personalizing large language models (LLMs) to align with
individual user preferences is a critical but challenging task. While
supervised fine-tuning (SFT) quickly reaches a performance plateau, standard
reinforcement learning from human feedback (RLHF) also struggles with the
nuances of personalization. Scalar-based reward models are prone to reward
hacking which leads to verbose and superficially personalized responses. To
address these limitations, we propose Critique-Post-Edit, a robust
reinforcement learning framework that enables more faithful and controllable
personalization. Our framework integrates two key components: (1) a
Personalized Generative Reward Model (GRM) that provides multi-dimensional
scores and textual critiques to resist reward hacking, and (2) a
Critique-Post-Edit mechanism where the policy model revises its own outputs
based on these critiques for more targeted and efficient learning. Under a
rigorous length-controlled evaluation, our method substantially outperforms
standard PPO on personalization benchmarks. Personalized Qwen2.5-7B achieves an
average 11\% win-rate improvement, and personalized Qwen2.5-14B model surpasses
the performance of GPT-4.1. These results demonstrate a practical path to
faithful, efficient, and controllable personalization.