**一を以て万に適応する:パーソナライズされたLLMアライメントのためのメタ報酬モデリング**
One Adapts to Any: Meta Reward Modeling for Personalized LLM Alignment
January 26, 2026
著者: Hongru Cai, Yongqi Li, Tiezheng Yu, Fengbin Zhu, Wenjie Wang, Fuli Feng, Wenjie Li
cs.AI
要旨
大規模言語モデル(LLM)のアライメントは、出力を人間の嗜好に合わせることを目的としており、個人化アライメントはさらにモデルを個々のユーザーに適応させる。これは、ユーザー固有の嗜好を捉え、自動的に個別化されたフィードバックを提供する個人化報酬モデルに依存する。しかし、これらのモデルの開発には、個々のユーザーからのフィードバック不足と、未知のユーザーへの効率的な適応必要性という2つの重大な課題がある。我々は、これらの制約に対処するには、データへの適合によるユーザー嗜好の学習から、嗜好適応のプロセスを学習するパラダイム転換が必要だと主張する。これを実現するため、メタ報酬モデリング(MRM)を提案する。MRMは個人化報酬モデリングをメタ学習問題として再定義する。具体的には、各ユーザーの報酬モデルを基本報酬関数の重み付き結合として表現し、Model-Agnostic Meta-Learning (MAML) スタイルのフレームワークを用いてこれらの重みの初期化を最適化し、限られたフィードバック下での高速適応を支援する。堅牢性を確保するため、メタ最適化中に学習困難なユーザーを重点的に扱うRobust Personalization Objective (RPO)を導入する。個人化嗜好データセットを用いた大規模実験により、MRMが少数ショット個人化を強化し、ユーザーに対する堅牢性を向上させ、ベースラインを一貫して上回ることを検証した。
English
Alignment of Large Language Models (LLMs) aims to align outputs with human preferences, and personalized alignment further adapts models to individual users. This relies on personalized reward models that capture user-specific preferences and automatically provide individualized feedback. However, developing these models faces two critical challenges: the scarcity of feedback from individual users and the need for efficient adaptation to unseen users. We argue that addressing these constraints requires a paradigm shift from fitting data to learn user preferences to learn the process of preference adaptation. To realize this, we propose Meta Reward Modeling (MRM), which reformulates personalized reward modeling as a meta-learning problem. Specifically, we represent each user's reward model as a weighted combination of base reward functions, and optimize the initialization of these weights using a Model-Agnostic Meta-Learning (MAML)-style framework to support fast adaptation under limited feedback. To ensure robustness, we introduce the Robust Personalization Objective (RPO), which places greater emphasis on hard-to-learn users during meta optimization. Extensive experiments on personalized preference datasets validate that MRM enhances few-shot personalization, improves user robustness, and consistently outperforms baselines.