ChatPaper.aiChatPaper

FSPO: Few-Shot Preference Optimization synthetischer Präferenzdaten in LLMs ermöglicht effektive Personalisierung für reale Nutzer.

FSPO: Few-Shot Preference Optimization of Synthetic Preference Data in LLMs Elicits Effective Personalization to Real Users

February 26, 2025
Autoren: Anikait Singh, Sheryl Hsu, Kyle Hsu, Eric Mitchell, Stefano Ermon, Tatsunori Hashimoto, Archit Sharma, Chelsea Finn
cs.AI

Zusammenfassung

Eine effektive Personalisierung von LLMs ist entscheidend für eine breite Palette von Anwendungen, die mit Nutzern interagieren, wie virtuelle Assistenten und Content-Curation. Inspiriert von den starken Fähigkeiten von LLMs im In-Context-Learning schlagen wir Few-Shot Preference Optimization (FSPO) vor, das die Modellierung von Belohnungen als ein Meta-Lernproblem umformuliert. In diesem Rahmen lernt ein LLM, sich schnell an einen Nutzer anzupassen, indem es einige beschriftete Präferenzen dieses Nutzers verwendet, um eine personalisierte Belohnungsfunktion für ihn zu erstellen. Da reale Präferenzdaten knapp und schwer in großem Umfang zu sammeln sind, schlagen wir sorgfältige Designentscheidungen vor, um synthetische Präferenzdatensätze für die Personalisierung zu erstellen, wobei wir über 1M synthetische personalisierte Präferenzen mit öffentlich verfügbaren LLMs generieren. Insbesondere ist es entscheidend, dass die Daten sowohl eine hohe Diversität als auch eine kohärente, selbstkonsistente Struktur aufweisen, um erfolgreich von synthetischen Daten auf reale Nutzer übertragen zu werden. Wir evaluieren FSPO bei der personalisierten offenen Generierung für bis zu 1.500 synthetische Nutzer in drei Domänen: Filmkritiken, pädagogische Anpassung basierend auf dem Bildungshintergrund und allgemeine Fragebeantwortung, sowie in einer kontrollierten Studie mit menschlichen Probanden. Insgesamt erreicht FSPO eine durchschnittliche Alpaca-Eval-Gewinnrate von 87 % bei der Generierung von Antworten, die auf synthetische Nutzer personalisiert sind, und eine Gewinnrate von 72 % bei echten menschlichen Nutzern in der offenen Fragebeantwortung.
English
Effective personalization of LLMs is critical for a broad range of user-interfacing applications such as virtual assistants and content curation. Inspired by the strong in-context learning capabilities of LLMs, we propose Few-Shot Preference Optimization (FSPO), which reframes reward modeling as a meta-learning problem. Under this framework, an LLM learns to quickly adapt to a user via a few labeled preferences from that user, constructing a personalized reward function for them. Additionally, since real-world preference data is scarce and challenging to collect at scale, we propose careful design choices to construct synthetic preference datasets for personalization, generating over 1M synthetic personalized preferences using publicly available LLMs. In particular, to successfully transfer from synthetic data to real users, we find it crucial for the data to exhibit both high diversity and coherent, self-consistent structure. We evaluate FSPO on personalized open-ended generation for up to 1,500 synthetic users across across three domains: movie reviews, pedagogical adaptation based on educational background, and general question answering, along with a controlled human study. Overall, FSPO achieves an 87% Alpaca Eval winrate on average in generating responses that are personalized to synthetic users and a 72% winrate with real human users in open-ended question answering.

Summary

AI-Generated Summary

PDF72February 27, 2025