Zu treuer und kontrollierbarer Personalisierung durch Kritik-Nachbearbeitungs-Verstärkungslernen
Towards Faithful and Controllable Personalization via Critique-Post-Edit Reinforcement Learning
October 21, 2025
papers.authors: Chenghao Zhu, Meiling Tao, Tiannan Wang, Dongyi Ding, Yuchen Eleanor Jiang, Wangchunshu Zhou
cs.AI
papers.abstract
Die treue Personalisierung großer Sprachmodelle (LLMs), um sie mit den individuellen Benutzerpräferenzen in Einklang zu bringen, ist eine entscheidende, aber herausfordernde Aufgabe. Während das überwachte Feinabstimmen (SFT) schnell ein Leistungsplateau erreicht, kämpft auch das standardmäßige Reinforcement Learning aus menschlichem Feedback (RLHF) mit den Nuancen der Personalisierung. Skalarbasierte Belohnungsmodelle sind anfällig für Belohnungshacking, was zu wortreichen und oberflächlich personalisierten Antworten führt. Um diese Einschränkungen zu überwinden, schlagen wir Critique-Post-Edit vor, ein robustes Reinforcement-Learning-Framework, das eine treuere und kontrollierbarere Personalisierung ermöglicht. Unser Framework integriert zwei Schlüsselkomponenten: (1) ein personalisiertes generatives Belohnungsmodell (GRM), das mehrdimensionale Bewertungen und textuelle Kritiken liefert, um Belohnungshacking zu widerstehen, und (2) einen Critique-Post-Edit-Mechanismus, bei dem das Policy-Modell seine eigenen Ausgaben basierend auf diesen Kritiken überarbeitet, um gezielteres und effizienteres Lernen zu ermöglichen. Unter einer strengen längenkontrollierten Bewertung übertrifft unsere Methode den Standard-PPO deutlich bei Personalisierungs-Benchmarks. Das personalisierte Qwen2.5-7B-Modell erreicht eine durchschnittliche Verbesserung der Gewinnrate von 11 %, und das personalisierte Qwen2.5-14B-Modell übertrifft die Leistung von GPT-4.1. Diese Ergebnisse zeigen einen praktischen Weg zu treuer, effizienter und kontrollierbarer Personalisierung auf.
English
Faithfully personalizing large language models (LLMs) to align with
individual user preferences is a critical but challenging task. While
supervised fine-tuning (SFT) quickly reaches a performance plateau, standard
reinforcement learning from human feedback (RLHF) also struggles with the
nuances of personalization. Scalar-based reward models are prone to reward
hacking which leads to verbose and superficially personalized responses. To
address these limitations, we propose Critique-Post-Edit, a robust
reinforcement learning framework that enables more faithful and controllable
personalization. Our framework integrates two key components: (1) a
Personalized Generative Reward Model (GRM) that provides multi-dimensional
scores and textual critiques to resist reward hacking, and (2) a
Critique-Post-Edit mechanism where the policy model revises its own outputs
based on these critiques for more targeted and efficient learning. Under a
rigorous length-controlled evaluation, our method substantially outperforms
standard PPO on personalization benchmarks. Personalized Qwen2.5-7B achieves an
average 11\% win-rate improvement, and personalized Qwen2.5-14B model surpasses
the performance of GPT-4.1. These results demonstrate a practical path to
faithful, efficient, and controllable personalization.