多様な人間の嗜好学習を主成分分析を通じて再考する
Rethinking Diverse Human Preference Learning through Principal Component Analysis
February 18, 2025
著者: Feng Luo, Rui Yang, Hao Sun, Chunyuan Deng, Jiarui Yao, Jingyan Shen, Huan Zhang, Hanjie Chen
cs.AI
要旨
人間の嗜好を理解することは、基盤モデルの改善やパーソナライズされたAIシステムの構築において極めて重要です。しかし、嗜好は本質的に多様で複雑であるため、従来の報酬モデルではその全範囲を捉えることが困難です。細かい粒度の嗜好データは役立つものの、その収集はコストがかかり、スケーリングが難しいという課題があります。本論文では、細かいアノテーションを必要とせずに、二値比較から多様な人間の嗜好を抽出する新しいアプローチであるDecomposed Reward Models (DRMs)を提案します。私たちの重要な洞察は、人間の嗜好をベクトルとして表現し、主成分分析(PCA)を用いて分析することです。DRMsは、好まれる応答と拒否される応答の埋め込み差分のデータセットを構築し、嗜好の異なる側面を捉える直交基底ベクトルを特定します。これらの分解された報酬は、異なるユーザー要件に合わせて柔軟に組み合わせることができ、従来の報酬モデルに比べて解釈可能性とスケーラビリティに優れた代替手段を提供します。私たちは、DRMsが有用性、安全性、ユーモアなどの意味のある嗜好次元を効果的に抽出し、追加のトレーニングなしで新しいユーザーに適応することを実証します。この結果は、DRMsがパーソナライズされた解釈可能なLLMアラインメントのための強力なフレームワークであることを示しています。
English
Understanding human preferences is crucial for improving foundation models
and building personalized AI systems. However, preferences are inherently
diverse and complex, making it difficult for traditional reward models to
capture their full range. While fine-grained preference data can help,
collecting it is expensive and hard to scale. In this paper, we introduce
Decomposed Reward Models (DRMs), a novel approach that extracts diverse human
preferences from binary comparisons without requiring fine-grained annotations.
Our key insight is to represent human preferences as vectors and analyze them
using Principal Component Analysis (PCA). By constructing a dataset of
embedding differences between preferred and rejected responses, DRMs identify
orthogonal basis vectors that capture distinct aspects of preference. These
decomposed rewards can be flexibly combined to align with different user needs,
offering an interpretable and scalable alternative to traditional reward
models. We demonstrate that DRMs effectively extract meaningful preference
dimensions (e.g., helpfulness, safety, humor) and adapt to new users without
additional training. Our results highlight DRMs as a powerful framework for
personalized and interpretable LLM alignment.Summary
AI-Generated Summary