PERSONA:多元的アラインメントのための再現可能なテストベッド
PERSONA: A Reproducible Testbed for Pluralistic Alignment
July 24, 2024
著者: Louis Castricato, Nathan Lile, Rafael Rafailov, Jan-Philipp Fränken, Chelsea Finn
cs.AI
要旨
言語モデル(LM)の急速な進展に伴い、多様なユーザー価値観との堅牢な整合性が求められています。しかし、現在の選好最適化アプローチは、しばしばユーザー意見の多様性を捉えきれず、多数派の視点を強化し、少数派の視点を疎外してしまう傾向にあります。本論文では、LMの多元的整合性を評価・改善するための再現可能なテストベッドであるPERSONAを紹介します。米国国勢調査データから多様なユーザープロファイルを手続き的に生成し、1,586の合成ペルソナを作成しました。これらのペルソナは、さまざまな人口統計学的特性と個人的特性を備えています。次に、これらの合成ペルソナから得られた3,868のプロンプトと317,200のフィードバックペアを含む大規模な評価データセットを生成しました。このデータセットを活用し、人間の評価者による検証を通じて、多様なユーザーをロールプレイするLMの能力を体系的に評価しました。さらに、多元的整合性アプローチのためのベンチマークであるPERSONA Benchと、新たな将来のベンチマークを作成するための広範なデータセットを確立しました。完全なデータセットとベンチマークは以下で利用可能です:https://www.synthlabs.ai/research/persona。
English
The rapid advancement of language models (LMs) necessitates robust alignment
with diverse user values. However, current preference optimization approaches
often fail to capture the plurality of user opinions, instead reinforcing
majority viewpoints and marginalizing minority perspectives. We introduce
PERSONA, a reproducible test bed designed to evaluate and improve pluralistic
alignment of LMs. We procedurally generate diverse user profiles from US census
data, resulting in 1,586 synthetic personas with varied demographic and
idiosyncratic attributes. We then generate a large-scale evaluation dataset
containing 3,868 prompts and 317,200 feedback pairs obtained from our synthetic
personas. Leveraging this dataset, we systematically evaluate LM capabilities
in role-playing diverse users, verified through human judges, and the
establishment of both a benchmark, PERSONA Bench, for pluralistic alignment
approaches as well as an extensive dataset to create new and future benchmarks.
The full dataset and benchmarks are available here:
https://www.synthlabs.ai/research/persona.Summary
AI-Generated Summary