ChatPaper.aiChatPaper

Naar Getrouwe en Beheersbare Personalisatie via Kritiek-Post-Bewerking Versterkend Leren

Towards Faithful and Controllable Personalization via Critique-Post-Edit Reinforcement Learning

October 21, 2025
Auteurs: Chenghao Zhu, Meiling Tao, Tiannan Wang, Dongyi Ding, Yuchen Eleanor Jiang, Wangchunshu Zhou
cs.AI

Samenvatting

Het nauwkeurig personaliseren van grote taalmodellen (LLMs) om af te stemmen op individuele gebruikersvoorkeuren is een cruciale maar uitdagende taak. Hoewel supervised fine-tuning (SFT) snel een prestatieplateau bereikt, worstelt ook standaard reinforcement learning from human feedback (RLHF) met de nuances van personalisatie. Scalar-gebaseerde beloningsmodellen zijn gevoelig voor reward hacking, wat leidt tot uitgebreide en oppervlakkig gepersonaliseerde reacties. Om deze beperkingen aan te pakken, stellen we Critique-Post-Edit voor, een robuust reinforcement learning-framework dat een meer trouwe en controleerbare personalisatie mogelijk maakt. Ons framework integreert twee belangrijke componenten: (1) een Personalized Generative Reward Model (GRM) dat multidimensionale scores en tekstuele kritieken biedt om reward hacking te weerstaan, en (2) een Critique-Post-Edit-mechanisme waarbij het beleidsmodel zijn eigen uitvoer herziet op basis van deze kritieken voor meer gericht en efficiënt leren. Onder een rigoureuze lengte-gecontroleerde evaluatie presteert onze methode aanzienlijk beter dan standaard PPO op personalisatiebenchmarks. Het gepersonaliseerde Qwen2.5-7B-model behaalt een gemiddelde win-rate verbetering van 11%, en het gepersonaliseerde Qwen2.5-14B-model overtreft de prestaties van GPT-4.1. Deze resultaten tonen een praktische weg naar trouwe, efficiënte en controleerbare personalisatie.
English
Faithfully personalizing large language models (LLMs) to align with individual user preferences is a critical but challenging task. While supervised fine-tuning (SFT) quickly reaches a performance plateau, standard reinforcement learning from human feedback (RLHF) also struggles with the nuances of personalization. Scalar-based reward models are prone to reward hacking which leads to verbose and superficially personalized responses. To address these limitations, we propose Critique-Post-Edit, a robust reinforcement learning framework that enables more faithful and controllable personalization. Our framework integrates two key components: (1) a Personalized Generative Reward Model (GRM) that provides multi-dimensional scores and textual critiques to resist reward hacking, and (2) a Critique-Post-Edit mechanism where the policy model revises its own outputs based on these critiques for more targeted and efficient learning. Under a rigorous length-controlled evaluation, our method substantially outperforms standard PPO on personalization benchmarks. Personalized Qwen2.5-7B achieves an average 11\% win-rate improvement, and personalized Qwen2.5-14B model surpasses the performance of GPT-4.1. These results demonstrate a practical path to faithful, efficient, and controllable personalization.
PDF192October 22, 2025