FSPO: Optimalisatie van Voorkeur met Weinig Voorbeelden van Synthetische Voorkeursgegevens in LLM's Leidt tot Effectieve Personalisatie voor Echte Gebruikers
FSPO: Few-Shot Preference Optimization of Synthetic Preference Data in LLMs Elicits Effective Personalization to Real Users
February 26, 2025
Auteurs: Anikait Singh, Sheryl Hsu, Kyle Hsu, Eric Mitchell, Stefano Ermon, Tatsunori Hashimoto, Archit Sharma, Chelsea Finn
cs.AI
Samenvatting
Het effectief personaliseren van LLM's is cruciaal voor een breed scala aan gebruikersgerichte toepassingen zoals virtuele assistenten en inhoudscuratoren. Geïnspireerd door de sterke leermogelijkheden in context van LLM's, stellen we Few-Shot Preference Optimization (FSPO) voor, waarbij beloningsmodellering wordt herschikt als een meta-leerprobleem. Binnen dit kader leert een LLM zich snel aan te passen aan een gebruiker via een paar gelabelde voorkeuren van die gebruiker, waarbij een gepersonaliseerde beloningsfunctie voor hen wordt geconstrueerd. Daarnaast, aangezien echte voorkeursgegevens schaars zijn en moeilijk op grote schaal te verzamelen, stellen we zorgvuldige ontwerpkeuzes voor om synthetische voorkeursdatasets te construeren voor personalisatie, waarbij meer dan 1 miljoen synthetische gepersonaliseerde voorkeuren worden gegenereerd met behulp van publiekelijk beschikbare LLM's. In het bijzonder, om succesvol over te dragen van synthetische gegevens naar echte gebruikers, vinden we het cruciaal dat de gegevens zowel een hoge diversiteit als een coherente, zelf-consistente structuur vertonen. We evalueren FSPO op gepersonaliseerde open-ended generatie voor maximaal 1.500 synthetische gebruikers over drie domeinen: filmrecensies, pedagogische aanpassing op basis van educatieve achtergrond, en algemeen vraagbeantwoording, samen met een gecontroleerde menselijke studie. Over het algemeen behaalt FSPO een gemiddelde Alpaca Eval winrate van 87% bij het genereren van reacties die gepersonaliseerd zijn voor synthetische gebruikers en een winrate van 72% bij echte menselijke gebruikers in open-ended vraagbeantwoording.
English
Effective personalization of LLMs is critical for a broad range of
user-interfacing applications such as virtual assistants and content curation.
Inspired by the strong in-context learning capabilities of LLMs, we propose
Few-Shot Preference Optimization (FSPO), which reframes reward modeling as a
meta-learning problem. Under this framework, an LLM learns to quickly adapt to
a user via a few labeled preferences from that user, constructing a
personalized reward function for them. Additionally, since real-world
preference data is scarce and challenging to collect at scale, we propose
careful design choices to construct synthetic preference datasets for
personalization, generating over 1M synthetic personalized preferences using
publicly available LLMs. In particular, to successfully transfer from synthetic
data to real users, we find it crucial for the data to exhibit both high
diversity and coherent, self-consistent structure. We evaluate FSPO on
personalized open-ended generation for up to 1,500 synthetic users across
across three domains: movie reviews, pedagogical adaptation based on
educational background, and general question answering, along with a controlled
human study. Overall, FSPO achieves an 87% Alpaca Eval winrate on average in
generating responses that are personalized to synthetic users and a 72% winrate
with real human users in open-ended question answering.