ChatPaper.aiChatPaper

FSPO: LLM의 합성 선호도 데이터에 대한 소샷 선호도 최적화가 실제 사용자에게 효과적인 개인화를 이끌어냄

FSPO: Few-Shot Preference Optimization of Synthetic Preference Data in LLMs Elicits Effective Personalization to Real Users

February 26, 2025
저자: Anikait Singh, Sheryl Hsu, Kyle Hsu, Eric Mitchell, Stefano Ermon, Tatsunori Hashimoto, Archit Sharma, Chelsea Finn
cs.AI

초록

대규모 언어 모델(LLM)의 효과적인 개인화는 가상 어시스턴트 및 콘텐츠 큐레이션과 같은 다양한 사용자 인터페이스 애플리케이션에서 매우 중요합니다. LLM의 강력한 컨텍스트 내 학습 능력에 영감을 받아, 우리는 보상 모델링을 메타 학습 문제로 재구성하는 Few-Shot Preference Optimization(FSPO)을 제안합니다. 이 프레임워크에서 LLM은 사용자의 몇 가지 라벨링된 선호도를 통해 빠르게 적응하여 개인화된 보상 함수를 구성합니다. 또한, 실제 선호도 데이터는 부족하고 대규모로 수집하기 어렵기 때문에, 우리는 공개적으로 이용 가능한 LLM을 사용하여 100만 개 이상의 합성 개인화 선호도 데이터셋을 구축하기 위한 신중한 설계 선택을 제안합니다. 특히, 합성 데이터를 실제 사용자에게 성공적으로 전이시키기 위해서는 데이터가 높은 다양성과 일관성 있는 구조를 모두 갖추는 것이 중요하다는 것을 발견했습니다. 우리는 FSPO를 영화 리뷰, 교육 배경에 기반한 교육적 적응, 일반 질문 응답 등 세 가지 도메인에서 최대 1,500명의 합성 사용자를 대상으로 개인화된 개방형 생성 작업에서 평가하고, 통제된 인간 연구를 수행했습니다. 전반적으로, FSPO는 합성 사용자에게 개인화된 응답 생성에서 평균 87%의 Alpaca Eval 승률을 달성했으며, 개방형 질문 응답에서 실제 인간 사용자와의 비교에서 72%의 승률을 기록했습니다.
English
Effective personalization of LLMs is critical for a broad range of user-interfacing applications such as virtual assistants and content curation. Inspired by the strong in-context learning capabilities of LLMs, we propose Few-Shot Preference Optimization (FSPO), which reframes reward modeling as a meta-learning problem. Under this framework, an LLM learns to quickly adapt to a user via a few labeled preferences from that user, constructing a personalized reward function for them. Additionally, since real-world preference data is scarce and challenging to collect at scale, we propose careful design choices to construct synthetic preference datasets for personalization, generating over 1M synthetic personalized preferences using publicly available LLMs. In particular, to successfully transfer from synthetic data to real users, we find it crucial for the data to exhibit both high diversity and coherent, self-consistent structure. We evaluate FSPO on personalized open-ended generation for up to 1,500 synthetic users across across three domains: movie reviews, pedagogical adaptation based on educational background, and general question answering, along with a controlled human study. Overall, FSPO achieves an 87% Alpaca Eval winrate on average in generating responses that are personalized to synthetic users and a 72% winrate with real human users in open-ended question answering.

Summary

AI-Generated Summary

PDF72February 27, 2025