하나가 모든 것에 적응한다: 맞춤형 LLM 정렬을 위한 메타 보상 모델링
One Adapts to Any: Meta Reward Modeling for Personalized LLM Alignment
January 26, 2026
저자: Hongru Cai, Yongqi Li, Tiezheng Yu, Fengbin Zhu, Wenjie Wang, Fuli Feng, Wenjie Li
cs.AI
초록
대규모 언어 모델(LLM)의 정렬은 모델 출력을 인간의 선호도와 일치시키는 것을 목표로 하며, 개인화 정렬은 이를 더 나아가 개별 사용자에 맞게 모델을 조정합니다. 이는 사용자별 선호도를 파악하고 자동으로 개인화된 피드백을 제공하는 개인화 보상 모델에 의존합니다. 그러나 이러한 모델 개발에는 두 가지 주요 과제가 있습니다: 개별 사용자로부터의 피드백 부족과 새로운 사용자에 대한 효율적인 적응 필요성입니다. 우리는 이러한 제약을 해결하기 위해서는 데이터 적응을 통한 선호도 학습에서, 선호도 적응 과정 자체를 학습하는 패러다임 전환이 필요하다고 주장합니다. 이를 실현하기 위해 개인화 보상 모델링을 메타학습 문제로 재정의하는 메타 보상 모델링(MRM)을 제안합니다. 구체적으로, 각 사용자의 보상 모델을 기본 보상 함수들의 가중 조합으로 표현하고, 제한된 피드백 하에서 빠른 적응을 지원하기 위해 MAML 스타일 프레임워크를 사용하여 이러한 가중치들의 초기화를 최적화합니다. 강건성을 보장하기 위해 메타 최적화 과정에서 학습이 어려운 사용자에게 더 큰 중요도를 부여하는 강건 개인화 목표(RPO)를 도입합니다. 개인화 선호도 데이터셋에 대한 폭넓은 실험을 통해 MRM이 소수 샷 개인화 성능을 향상시키고, 사용자 강건성을 높이며, 기준 모델들을 일관되게 능가함을 검증합니다.
English
Alignment of Large Language Models (LLMs) aims to align outputs with human preferences, and personalized alignment further adapts models to individual users. This relies on personalized reward models that capture user-specific preferences and automatically provide individualized feedback. However, developing these models faces two critical challenges: the scarcity of feedback from individual users and the need for efficient adaptation to unseen users. We argue that addressing these constraints requires a paradigm shift from fitting data to learn user preferences to learn the process of preference adaptation. To realize this, we propose Meta Reward Modeling (MRM), which reformulates personalized reward modeling as a meta-learning problem. Specifically, we represent each user's reward model as a weighted combination of base reward functions, and optimize the initialization of these weights using a Model-Agnostic Meta-Learning (MAML)-style framework to support fast adaptation under limited feedback. To ensure robustness, we introduce the Robust Personalization Objective (RPO), which places greater emphasis on hard-to-learn users during meta optimization. Extensive experiments on personalized preference datasets validate that MRM enhances few-shot personalization, improves user robustness, and consistently outperforms baselines.