Rumo a uma Personalização Fiel e Controlável por meio de Aprendizado por Reforço de Crítica e Pós-Edição

Resumo

Personalizar fielmente grandes modelos de linguagem (LLMs) para alinhá-los às preferências individuais dos usuários é uma tarefa crítica, mas desafiadora. Enquanto o ajuste fino supervisionado (SFT) rapidamente atinge um platô de desempenho, o aprendizado por reforço padrão com feedback humano (RLHF) também luta com as nuances da personalização. Modelos de recompensa baseados em escalares são propensos a "hacking de recompensa", o que leva a respostas verbosas e superficialmente personalizadas. Para abordar essas limitações, propomos o Critique-Post-Edit, um framework robusto de aprendizado por reforço que permite uma personalização mais fiel e controlável. Nosso framework integra dois componentes principais: (1) um Modelo de Recompensa Generativa Personalizado (GRM) que fornece pontuações multidimensionais e críticas textuais para resistir ao hacking de recompensa, e (2) um mecanismo Critique-Post-Edit, onde o modelo de política revisa suas próprias saídas com base nessas críticas para um aprendizado mais direcionado e eficiente. Sob uma avaliação rigorosa com controle de comprimento, nosso método supera substancialmente o PPO padrão em benchmarks de personalização. O modelo Qwen2.5-7B personalizado alcança uma melhoria média de 11% na taxa de vitória, e o modelo Qwen2.5-14B personalizado supera o desempenho do GPT-4.1. Esses resultados demonstram um caminho prático para uma personalização fiel, eficiente e controlável.

English

Faithfully personalizing large language models (LLMs) to align with individual user preferences is a critical but challenging task. While supervised fine-tuning (SFT) quickly reaches a performance plateau, standard reinforcement learning from human feedback (RLHF) also struggles with the nuances of personalization. Scalar-based reward models are prone to reward hacking which leads to verbose and superficially personalized responses. To address these limitations, we propose Critique-Post-Edit, a robust reinforcement learning framework that enables more faithful and controllable personalization. Our framework integrates two key components: (1) a Personalized Generative Reward Model (GRM) that provides multi-dimensional scores and textual critiques to resist reward hacking, and (2) a Critique-Post-Edit mechanism where the policy model revises its own outputs based on these critiques for more targeted and efficient learning. Under a rigorous length-controlled evaluation, our method substantially outperforms standard PPO on personalization benchmarks. Personalized Qwen2.5-7B achieves an average 11\% win-rate improvement, and personalized Qwen2.5-14B model surpasses the performance of GPT-4.1. These results demonstrate a practical path to faithful, efficient, and controllable personalization.

Rumo a uma Personalização Fiel e Controlável por meio de Aprendizado por Reforço de Crítica e Pós-Edição

Towards Faithful and Controllable Personalization via Critique-Post-Edit Reinforcement Learning

Resumo

Support