ChatPaper.aiChatPaper

Zu treuer und kontrollierbarer Personalisierung durch Kritik-Nachbearbeitungs-Verstärkungslernen

Towards Faithful and Controllable Personalization via Critique-Post-Edit Reinforcement Learning

October 21, 2025
papers.authors: Chenghao Zhu, Meiling Tao, Tiannan Wang, Dongyi Ding, Yuchen Eleanor Jiang, Wangchunshu Zhou
cs.AI

papers.abstract

Die treue Personalisierung großer Sprachmodelle (LLMs), um sie mit den individuellen Benutzerpräferenzen in Einklang zu bringen, ist eine entscheidende, aber herausfordernde Aufgabe. Während das überwachte Feinabstimmen (SFT) schnell ein Leistungsplateau erreicht, kämpft auch das standardmäßige Reinforcement Learning aus menschlichem Feedback (RLHF) mit den Nuancen der Personalisierung. Skalarbasierte Belohnungsmodelle sind anfällig für Belohnungshacking, was zu wortreichen und oberflächlich personalisierten Antworten führt. Um diese Einschränkungen zu überwinden, schlagen wir Critique-Post-Edit vor, ein robustes Reinforcement-Learning-Framework, das eine treuere und kontrollierbarere Personalisierung ermöglicht. Unser Framework integriert zwei Schlüsselkomponenten: (1) ein personalisiertes generatives Belohnungsmodell (GRM), das mehrdimensionale Bewertungen und textuelle Kritiken liefert, um Belohnungshacking zu widerstehen, und (2) einen Critique-Post-Edit-Mechanismus, bei dem das Policy-Modell seine eigenen Ausgaben basierend auf diesen Kritiken überarbeitet, um gezielteres und effizienteres Lernen zu ermöglichen. Unter einer strengen längenkontrollierten Bewertung übertrifft unsere Methode den Standard-PPO deutlich bei Personalisierungs-Benchmarks. Das personalisierte Qwen2.5-7B-Modell erreicht eine durchschnittliche Verbesserung der Gewinnrate von 11 %, und das personalisierte Qwen2.5-14B-Modell übertrifft die Leistung von GPT-4.1. Diese Ergebnisse zeigen einen praktischen Weg zu treuer, effizienter und kontrollierbarer Personalisierung auf.
English
Faithfully personalizing large language models (LLMs) to align with individual user preferences is a critical but challenging task. While supervised fine-tuning (SFT) quickly reaches a performance plateau, standard reinforcement learning from human feedback (RLHF) also struggles with the nuances of personalization. Scalar-based reward models are prone to reward hacking which leads to verbose and superficially personalized responses. To address these limitations, we propose Critique-Post-Edit, a robust reinforcement learning framework that enables more faithful and controllable personalization. Our framework integrates two key components: (1) a Personalized Generative Reward Model (GRM) that provides multi-dimensional scores and textual critiques to resist reward hacking, and (2) a Critique-Post-Edit mechanism where the policy model revises its own outputs based on these critiques for more targeted and efficient learning. Under a rigorous length-controlled evaluation, our method substantially outperforms standard PPO on personalization benchmarks. Personalized Qwen2.5-7B achieves an average 11\% win-rate improvement, and personalized Qwen2.5-14B model surpasses the performance of GPT-4.1. These results demonstrate a practical path to faithful, efficient, and controllable personalization.
PDF192October 22, 2025