비판-수정 강화 학습을 통한 충실하고 제어 가능한 개인화
Towards Faithful and Controllable Personalization via Critique-Post-Edit Reinforcement Learning
October 21, 2025
저자: Chenghao Zhu, Meiling Tao, Tiannan Wang, Dongyi Ding, Yuchen Eleanor Jiang, Wangchunshu Zhou
cs.AI
초록
대규모 언어 모델(LLM)을 개별 사용자 선호도에 맞춰 충실하게 개인화하는 것은 중요하지만 어려운 과제입니다. 지도 미세 조정(SFT)은 빠르게 성능 정체에 도달하며, 표준 인간 피드백 강화 학습(RLHF)도 개인화의 미묘한 차이를 다루는 데 어려움을 겪습니다. 스칼라 기반 보상 모델은 보상 해킹에 취약하여 장황하고 피상적으로 개인화된 응답을 생성하는 경향이 있습니다. 이러한 한계를 해결하기 위해, 우리는 더 충실하고 제어 가능한 개인화를 가능하게 하는 강력한 강화 학습 프레임워크인 Critique-Post-Edit를 제안합니다. 우리의 프레임워크는 두 가지 핵심 구성 요소를 통합합니다: (1) 보상 해킹에 저항하기 위해 다차원 점수와 텍스트 비평을 제공하는 개인화 생성 보상 모델(GRM), 그리고 (2) 정책 모델이 이러한 비평을 바탕으로 자신의 출력을 수정하여 더 목표 지향적이고 효율적인 학습을 가능하게 하는 Critique-Post-Edit 메커니즘입니다. 엄격한 길이 제어 평가 하에서, 우리의 방법은 개인화 벤치마크에서 표준 PPO를 크게 능가합니다. 개인화된 Qwen2.5-7B는 평균 11%의 승률 향상을 달성했으며, 개인화된 Qwen2.5-14B 모델은 GPT-4.1의 성능을 뛰어넘었습니다. 이러한 결과는 충실하고 효율적이며 제어 가능한 개인화를 위한 실용적인 경로를 보여줍니다.
English
Faithfully personalizing large language models (LLMs) to align with
individual user preferences is a critical but challenging task. While
supervised fine-tuning (SFT) quickly reaches a performance plateau, standard
reinforcement learning from human feedback (RLHF) also struggles with the
nuances of personalization. Scalar-based reward models are prone to reward
hacking which leads to verbose and superficially personalized responses. To
address these limitations, we propose Critique-Post-Edit, a robust
reinforcement learning framework that enables more faithful and controllable
personalization. Our framework integrates two key components: (1) a
Personalized Generative Reward Model (GRM) that provides multi-dimensional
scores and textual critiques to resist reward hacking, and (2) a
Critique-Post-Edit mechanism where the policy model revises its own outputs
based on these critiques for more targeted and efficient learning. Under a
rigorous length-controlled evaluation, our method substantially outperforms
standard PPO on personalization benchmarks. Personalized Qwen2.5-7B achieves an
average 11\% win-rate improvement, and personalized Qwen2.5-14B model surpasses
the performance of GPT-4.1. These results demonstrate a practical path to
faithful, efficient, and controllable personalization.