Naar Getrouwe en Beheersbare Personalisatie via Kritiek-Post-Bewerking Versterkend Leren

Samenvatting

Het nauwkeurig personaliseren van grote taalmodellen (LLMs) om af te stemmen op individuele gebruikersvoorkeuren is een cruciale maar uitdagende taak. Hoewel supervised fine-tuning (SFT) snel een prestatieplateau bereikt, worstelt ook standaard reinforcement learning from human feedback (RLHF) met de nuances van personalisatie. Scalar-gebaseerde beloningsmodellen zijn gevoelig voor reward hacking, wat leidt tot uitgebreide en oppervlakkig gepersonaliseerde reacties. Om deze beperkingen aan te pakken, stellen we Critique-Post-Edit voor, een robuust reinforcement learning-framework dat een meer trouwe en controleerbare personalisatie mogelijk maakt. Ons framework integreert twee belangrijke componenten: (1) een Personalized Generative Reward Model (GRM) dat multidimensionale scores en tekstuele kritieken biedt om reward hacking te weerstaan, en (2) een Critique-Post-Edit-mechanisme waarbij het beleidsmodel zijn eigen uitvoer herziet op basis van deze kritieken voor meer gericht en efficiënt leren. Onder een rigoureuze lengte-gecontroleerde evaluatie presteert onze methode aanzienlijk beter dan standaard PPO op personalisatiebenchmarks. Het gepersonaliseerde Qwen2.5-7B-model behaalt een gemiddelde win-rate verbetering van 11%, en het gepersonaliseerde Qwen2.5-14B-model overtreft de prestaties van GPT-4.1. Deze resultaten tonen een praktische weg naar trouwe, efficiënte en controleerbare personalisatie.

English

Faithfully personalizing large language models (LLMs) to align with individual user preferences is a critical but challenging task. While supervised fine-tuning (SFT) quickly reaches a performance plateau, standard reinforcement learning from human feedback (RLHF) also struggles with the nuances of personalization. Scalar-based reward models are prone to reward hacking which leads to verbose and superficially personalized responses. To address these limitations, we propose Critique-Post-Edit, a robust reinforcement learning framework that enables more faithful and controllable personalization. Our framework integrates two key components: (1) a Personalized Generative Reward Model (GRM) that provides multi-dimensional scores and textual critiques to resist reward hacking, and (2) a Critique-Post-Edit mechanism where the policy model revises its own outputs based on these critiques for more targeted and efficient learning. Under a rigorous length-controlled evaluation, our method substantially outperforms standard PPO on personalization benchmarks. Personalized Qwen2.5-7B achieves an average 11\% win-rate improvement, and personalized Qwen2.5-14B model surpasses the performance of GPT-4.1. These results demonstrate a practical path to faithful, efficient, and controllable personalization.

Naar Getrouwe en Beheersbare Personalisatie via Kritiek-Post-Bewerking Versterkend Leren

Towards Faithful and Controllable Personalization via Critique-Post-Edit Reinforcement Learning

Samenvatting

Support