ChatPaper.aiChatPaper

Hacia una Personalización Fiel y Controlada mediante Aprendizaje por Refuerzo de Crítica y Post-Edición

Towards Faithful and Controllable Personalization via Critique-Post-Edit Reinforcement Learning

October 21, 2025
Autores: Chenghao Zhu, Meiling Tao, Tiannan Wang, Dongyi Ding, Yuchen Eleanor Jiang, Wangchunshu Zhou
cs.AI

Resumen

La personalización fiel de modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) para alinearse con las preferencias individuales de los usuarios es una tarea crítica pero desafiante. Mientras que el ajuste fino supervisado (SFT, por sus siglas en inglés) alcanza rápidamente una meseta de rendimiento, el aprendizaje por refuerzo estándar basado en retroalimentación humana (RLHF, por sus siglas en inglés) también enfrenta dificultades con los matices de la personalización. Los modelos de recompensa basados en escalares son propensos a la manipulación de recompensas, lo que conduce a respuestas verbosas y superficialmente personalizadas. Para abordar estas limitaciones, proponemos **Critique-Post-Edit**, un marco robusto de aprendizaje por refuerzo que permite una personalización más fiel y controlable. Nuestro marco integra dos componentes clave: (1) un **Modelo Generativo de Recompensa Personalizado (GRM, por sus siglas en inglés)** que proporciona puntuaciones multidimensionales y críticas textuales para resistir la manipulación de recompensas, y (2) un mecanismo de **Critique-Post-Edit** donde el modelo de política revisa sus propias salidas basándose en estas críticas para un aprendizaje más dirigido y eficiente. Bajo una evaluación rigurosa controlada por longitud, nuestro método supera sustancialmente al PPO estándar en benchmarks de personalización. El modelo personalizado Qwen2.5-7B logra una mejora promedio del 11\% en la tasa de victoria, y el modelo personalizado Qwen2.5-14B supera el rendimiento de GPT-4.1. Estos resultados demuestran un camino práctico hacia una personalización fiel, eficiente y controlable.
English
Faithfully personalizing large language models (LLMs) to align with individual user preferences is a critical but challenging task. While supervised fine-tuning (SFT) quickly reaches a performance plateau, standard reinforcement learning from human feedback (RLHF) also struggles with the nuances of personalization. Scalar-based reward models are prone to reward hacking which leads to verbose and superficially personalized responses. To address these limitations, we propose Critique-Post-Edit, a robust reinforcement learning framework that enables more faithful and controllable personalization. Our framework integrates two key components: (1) a Personalized Generative Reward Model (GRM) that provides multi-dimensional scores and textual critiques to resist reward hacking, and (2) a Critique-Post-Edit mechanism where the policy model revises its own outputs based on these critiques for more targeted and efficient learning. Under a rigorous length-controlled evaluation, our method substantially outperforms standard PPO on personalization benchmarks. Personalized Qwen2.5-7B achieves an average 11\% win-rate improvement, and personalized Qwen2.5-14B model surpasses the performance of GPT-4.1. These results demonstrate a practical path to faithful, efficient, and controllable personalization.
PDF192October 22, 2025