Rumo a uma Personalização Fiel e Controlável por meio de Aprendizado por Reforço de Crítica e Pós-Edição
Towards Faithful and Controllable Personalization via Critique-Post-Edit Reinforcement Learning
October 21, 2025
Autores: Chenghao Zhu, Meiling Tao, Tiannan Wang, Dongyi Ding, Yuchen Eleanor Jiang, Wangchunshu Zhou
cs.AI
Resumo
Personalizar fielmente grandes modelos de linguagem (LLMs) para alinhá-los às preferências individuais dos usuários é uma tarefa crítica, mas desafiadora. Enquanto o ajuste fino supervisionado (SFT) rapidamente atinge um platô de desempenho, o aprendizado por reforço padrão com feedback humano (RLHF) também luta com as nuances da personalização. Modelos de recompensa baseados em escalares são propensos a "hacking de recompensa", o que leva a respostas verbosas e superficialmente personalizadas. Para abordar essas limitações, propomos o Critique-Post-Edit, um framework robusto de aprendizado por reforço que permite uma personalização mais fiel e controlável. Nosso framework integra dois componentes principais: (1) um Modelo de Recompensa Generativa Personalizado (GRM) que fornece pontuações multidimensionais e críticas textuais para resistir ao hacking de recompensa, e (2) um mecanismo Critique-Post-Edit, onde o modelo de política revisa suas próprias saídas com base nessas críticas para um aprendizado mais direcionado e eficiente. Sob uma avaliação rigorosa com controle de comprimento, nosso método supera substancialmente o PPO padrão em benchmarks de personalização. O modelo Qwen2.5-7B personalizado alcança uma melhoria média de 11% na taxa de vitória, e o modelo Qwen2.5-14B personalizado supera o desempenho do GPT-4.1. Esses resultados demonstram um caminho prático para uma personalização fiel, eficiente e controlável.
English
Faithfully personalizing large language models (LLMs) to align with
individual user preferences is a critical but challenging task. While
supervised fine-tuning (SFT) quickly reaches a performance plateau, standard
reinforcement learning from human feedback (RLHF) also struggles with the
nuances of personalization. Scalar-based reward models are prone to reward
hacking which leads to verbose and superficially personalized responses. To
address these limitations, we propose Critique-Post-Edit, a robust
reinforcement learning framework that enables more faithful and controllable
personalization. Our framework integrates two key components: (1) a
Personalized Generative Reward Model (GRM) that provides multi-dimensional
scores and textual critiques to resist reward hacking, and (2) a
Critique-Post-Edit mechanism where the policy model revises its own outputs
based on these critiques for more targeted and efficient learning. Under a
rigorous length-controlled evaluation, our method substantially outperforms
standard PPO on personalization benchmarks. Personalized Qwen2.5-7B achieves an
average 11\% win-rate improvement, and personalized Qwen2.5-14B model surpasses
the performance of GPT-4.1. These results demonstrate a practical path to
faithful, efficient, and controllable personalization.