ChatPaper.aiChatPaper

К обеспечению достоверности и управляемости персонализации через обучение с подкреплением на основе критики и пост-редактирования

Towards Faithful and Controllable Personalization via Critique-Post-Edit Reinforcement Learning

October 21, 2025
Авторы: Chenghao Zhu, Meiling Tao, Tiannan Wang, Dongyi Ding, Yuchen Eleanor Jiang, Wangchunshu Zhou
cs.AI

Аннотация

Точная персонализация крупных языковых моделей (LLM) в соответствии с индивидуальными предпочтениями пользователей является важной, но сложной задачей. Хотя обучение с учителем (SFT) быстро достигает плато производительности, стандартное обучение с подкреплением на основе обратной связи от человека (RLHF) также сталкивается с трудностями в учете нюансов персонализации. Скалярные модели вознаграждения склонны к "взлому вознаграждения", что приводит к многословным и поверхностно персонализированным ответам. Для преодоления этих ограничений мы предлагаем Critique-Post-Edit — надежную структуру обучения с подкреплением, которая обеспечивает более точную и контролируемую персонализацию. Наша структура включает два ключевых компонента: (1) Персонализированную Генеративную Модель Вознаграждения (GRM), которая предоставляет многомерные оценки и текстовые критические замечания для предотвращения взлома вознаграждения, и (2) Механизм Critique-Post-Edit, где модель политики пересматривает свои собственные выходные данные на основе этих критических замечаний для более целенаправленного и эффективного обучения. В рамках строгой оценки с контролем длины наш метод значительно превосходит стандартный PPO на тестах персонализации. Персонализированная модель Qwen2.5-7B демонстрирует среднее улучшение показателя выигрыша на 11%, а персонализированная модель Qwen2.5-14B превосходит производительность GPT-4.1. Эти результаты демонстрируют практический путь к точной, эффективной и контролируемой персонализации.
English
Faithfully personalizing large language models (LLMs) to align with individual user preferences is a critical but challenging task. While supervised fine-tuning (SFT) quickly reaches a performance plateau, standard reinforcement learning from human feedback (RLHF) also struggles with the nuances of personalization. Scalar-based reward models are prone to reward hacking which leads to verbose and superficially personalized responses. To address these limitations, we propose Critique-Post-Edit, a robust reinforcement learning framework that enables more faithful and controllable personalization. Our framework integrates two key components: (1) a Personalized Generative Reward Model (GRM) that provides multi-dimensional scores and textual critiques to resist reward hacking, and (2) a Critique-Post-Edit mechanism where the policy model revises its own outputs based on these critiques for more targeted and efficient learning. Under a rigorous length-controlled evaluation, our method substantially outperforms standard PPO on personalization benchmarks. Personalized Qwen2.5-7B achieves an average 11\% win-rate improvement, and personalized Qwen2.5-14B model surpasses the performance of GPT-4.1. These results demonstrate a practical path to faithful, efficient, and controllable personalization.
PDF192October 22, 2025