Vers une personnalisation fidèle et contrôlée via l'apprentissage par renforcement avec critique et post-édition
Towards Faithful and Controllable Personalization via Critique-Post-Edit Reinforcement Learning
October 21, 2025
papers.authors: Chenghao Zhu, Meiling Tao, Tiannan Wang, Dongyi Ding, Yuchen Eleanor Jiang, Wangchunshu Zhou
cs.AI
papers.abstract
La personnalisation fidèle des grands modèles de langage (LLM) pour les aligner sur les préférences individuelles des utilisateurs est une tâche cruciale mais complexe. Bien que le fine-tuning supervisé (SFT) atteigne rapidement un plateau de performance, l'apprentissage par renforcement standard basé sur les retours humains (RLHF) peine également à capturer les nuances de la personnalisation. Les modèles de récompense basés sur des valeurs scalaires sont sujets au "reward hacking", ce qui entraîne des réponses verbeuses et superficiellement personnalisées. Pour surmonter ces limitations, nous proposons Critique-Post-Edit, un cadre d'apprentissage par renforcement robuste qui permet une personnalisation plus fidèle et contrôlable. Notre cadre intègre deux composants clés : (1) un modèle de récompense génératif personnalisé (GRM) qui fournit des scores multidimensionnels et des critiques textuelles pour résister au reward hacking, et (2) un mécanisme Critique-Post-Edit où le modèle de politique révise ses propres sorties en fonction de ces critiques pour un apprentissage plus ciblé et efficace. Lors d'une évaluation rigoureuse contrôlée par la longueur, notre méthode surpasse largement le PPO standard sur des benchmarks de personnalisation. Le modèle personnalisé Qwen2.5-7B obtient une amélioration moyenne de 11 % en taux de victoire, et le modèle personnalisé Qwen2.5-14B dépasse les performances de GPT-4.1. Ces résultats démontrent une voie pratique vers une personnalisation fidèle, efficace et contrôlable.
English
Faithfully personalizing large language models (LLMs) to align with
individual user preferences is a critical but challenging task. While
supervised fine-tuning (SFT) quickly reaches a performance plateau, standard
reinforcement learning from human feedback (RLHF) also struggles with the
nuances of personalization. Scalar-based reward models are prone to reward
hacking which leads to verbose and superficially personalized responses. To
address these limitations, we propose Critique-Post-Edit, a robust
reinforcement learning framework that enables more faithful and controllable
personalization. Our framework integrates two key components: (1) a
Personalized Generative Reward Model (GRM) that provides multi-dimensional
scores and textual critiques to resist reward hacking, and (2) a
Critique-Post-Edit mechanism where the policy model revises its own outputs
based on these critiques for more targeted and efficient learning. Under a
rigorous length-controlled evaluation, our method substantially outperforms
standard PPO on personalization benchmarks. Personalized Qwen2.5-7B achieves an
average 11\% win-rate improvement, and personalized Qwen2.5-14B model surpasses
the performance of GPT-4.1. These results demonstrate a practical path to
faithful, efficient, and controllable personalization.