ChatPaper.aiChatPaper

Verso una Personalizzazione Fedele e Controllabile tramite Apprendimento per Rinforzo con Critica e Post-Editing

Towards Faithful and Controllable Personalization via Critique-Post-Edit Reinforcement Learning

October 21, 2025
Autori: Chenghao Zhu, Meiling Tao, Tiannan Wang, Dongyi Ding, Yuchen Eleanor Jiang, Wangchunshu Zhou
cs.AI

Abstract

Personalizzare fedelmente i grandi modelli linguistici (LLM) per allinearli alle preferenze individuali degli utenti è un compito cruciale ma impegnativo. Mentre il fine-tuning supervisionato (SFT) raggiunge rapidamente un plateau di prestazioni, anche l'apprendimento per rinforzo standard basato sul feedback umano (RLHF) fatica a gestire le sfumature della personalizzazione. I modelli di ricompensa basati su valori scalari sono soggetti a fenomeni di "reward hacking", che portano a risposte prolisse e superficialmente personalizzate. Per affrontare queste limitazioni, proponiamo Critique-Post-Edit, un robusto framework di apprendimento per rinforzo che consente una personalizzazione più fedele e controllabile. Il nostro framework integra due componenti chiave: (1) un Modello Generativo di Ricompensa Personalizzato (GRM) che fornisce punteggi multidimensionali e critiche testuali per resistere al reward hacking, e (2) un meccanismo Critique-Post-Edit in cui il modello di policy rivede i propri output sulla base di queste critiche per un apprendimento più mirato ed efficiente. In una valutazione rigorosa con controllo della lunghezza, il nostro metodo supera sostanzialmente il PPO standard nei benchmark di personalizzazione. Il modello personalizzato Qwen2.5-7B ottiene un miglioramento medio dell'11\% nel tasso di vittoria, mentre il modello personalizzato Qwen2.5-14B supera le prestazioni di GPT-4.1. Questi risultati dimostrano un percorso pratico verso una personalizzazione fedele, efficiente e controllabile.
English
Faithfully personalizing large language models (LLMs) to align with individual user preferences is a critical but challenging task. While supervised fine-tuning (SFT) quickly reaches a performance plateau, standard reinforcement learning from human feedback (RLHF) also struggles with the nuances of personalization. Scalar-based reward models are prone to reward hacking which leads to verbose and superficially personalized responses. To address these limitations, we propose Critique-Post-Edit, a robust reinforcement learning framework that enables more faithful and controllable personalization. Our framework integrates two key components: (1) a Personalized Generative Reward Model (GRM) that provides multi-dimensional scores and textual critiques to resist reward hacking, and (2) a Critique-Post-Edit mechanism where the policy model revises its own outputs based on these critiques for more targeted and efficient learning. Under a rigorous length-controlled evaluation, our method substantially outperforms standard PPO on personalization benchmarks. Personalized Qwen2.5-7B achieves an average 11\% win-rate improvement, and personalized Qwen2.5-14B model surpasses the performance of GPT-4.1. These results demonstrate a practical path to faithful, efficient, and controllable personalization.
PDF192October 22, 2025