ChatPaper.aiChatPaper

FSPO:合成選好データに対するFew-Shot選好最適化により、LLMが実ユーザーへの効果的なパーソナライゼーションを実現

FSPO: Few-Shot Preference Optimization of Synthetic Preference Data in LLMs Elicits Effective Personalization to Real Users

February 26, 2025
著者: Anikait Singh, Sheryl Hsu, Kyle Hsu, Eric Mitchell, Stefano Ermon, Tatsunori Hashimoto, Archit Sharma, Chelsea Finn
cs.AI

要旨

大規模言語モデル(LLM)の効果的なパーソナライゼーションは、仮想アシスタントやコンテンツキュレーションといったユーザーインターフェースアプリケーションにおいて極めて重要である。LLMの強力なインコンテキスト学習能力に着想を得て、我々はFew-Shot Preference Optimization(FSPO)を提案する。これは報酬モデリングをメタ学習問題として再定義するものである。このフレームワークの下、LLMはユーザーからの少数のラベル付き選好を通じて迅速に適応し、そのユーザー向けのパーソナライズされた報酬関数を構築する。さらに、現実世界の選好データは希少であり、大規模に収集することが困難であるため、パーソナライゼーションのための合成選好データセットを構築するための慎重な設計選択を提案し、公開されているLLMを用いて100万以上の合成パーソナライズド選好を生成した。特に、合成データから実ユーザーへの転移を成功させるためには、データが高い多様性と一貫性のある自己整合的な構造を示すことが重要であることがわかった。我々はFSPOを、映画レビュー、教育背景に基づく教育的適応、一般的な質問応答という3つの領域にわたる最大1,500人の合成ユーザー向けのパーソナライズドオープンエンド生成において評価し、制御された人間実験も行った。全体として、FSPOは合成ユーザー向けにパーソナライズされた応答生成において平均87%のAlpaca Eval勝率を達成し、オープンエンド質問応答における実人間ユーザーとの比較では72%の勝率を記録した。
English
Effective personalization of LLMs is critical for a broad range of user-interfacing applications such as virtual assistants and content curation. Inspired by the strong in-context learning capabilities of LLMs, we propose Few-Shot Preference Optimization (FSPO), which reframes reward modeling as a meta-learning problem. Under this framework, an LLM learns to quickly adapt to a user via a few labeled preferences from that user, constructing a personalized reward function for them. Additionally, since real-world preference data is scarce and challenging to collect at scale, we propose careful design choices to construct synthetic preference datasets for personalization, generating over 1M synthetic personalized preferences using publicly available LLMs. In particular, to successfully transfer from synthetic data to real users, we find it crucial for the data to exhibit both high diversity and coherent, self-consistent structure. We evaluate FSPO on personalized open-ended generation for up to 1,500 synthetic users across across three domains: movie reviews, pedagogical adaptation based on educational background, and general question answering, along with a controlled human study. Overall, FSPO achieves an 87% Alpaca Eval winrate on average in generating responses that are personalized to synthetic users and a 72% winrate with real human users in open-ended question answering.

Summary

AI-Generated Summary

PDF72February 27, 2025