FSPO: Ottimizzazione delle Preferenze con Pochi Esempi su Dati Sintetici nei Modelli Linguistici Promuove un'Efficace Personalizzazione per Utenti Reali
FSPO: Few-Shot Preference Optimization of Synthetic Preference Data in LLMs Elicits Effective Personalization to Real Users
February 26, 2025
Autori: Anikait Singh, Sheryl Hsu, Kyle Hsu, Eric Mitchell, Stefano Ermon, Tatsunori Hashimoto, Archit Sharma, Chelsea Finn
cs.AI
Abstract
La personalizzazione efficace dei LLM è fondamentale per un'ampia gamma di applicazioni di interfaccia utente, come assistenti virtuali e curatela di contenuti. Ispirati dalle forti capacità di apprendimento in contesto dei LLM, proponiamo l'Optimizzazione delle Preferenze con Pochi Esempi (FSPO), che riformula la modellazione delle ricompense come un problema di meta-apprendimento. In questo framework, un LLM impara ad adattarsi rapidamente a un utente attraverso pochi esempi di preferenze etichettate provenienti da quell'utente, costruendo una funzione di ricompensa personalizzata per lui. Inoltre, poiché i dati sulle preferenze nel mondo reale sono scarsi e difficili da raccogliere su larga scala, proponiamo scelte progettuali attente per costruire dataset sintetici di preferenze per la personalizzazione, generando oltre 1 milione di preferenze personalizzate sintetiche utilizzando LLM disponibili pubblicamente. In particolare, per trasferire con successo i dati sintetici agli utenti reali, riteniamo cruciale che i dati presentino sia un'elevata diversità che una struttura coerente e auto-consistente. Valutiamo FSPO sulla generazione aperta personalizzata per fino a 1.500 utenti sintetici in tre domini: recensioni di film, adattamento pedagogico basato sul background educativo e risposte a domande generali, insieme a uno studio controllato con esseri umani. Nel complesso, FSPO raggiunge un tasso di vittoria medio dell'87% su Alpaca Eval nella generazione di risposte personalizzate per utenti sintetici e un tasso di vittoria del 72% con utenti umani reali nella risposta a domande aperte.
English
Effective personalization of LLMs is critical for a broad range of
user-interfacing applications such as virtual assistants and content curation.
Inspired by the strong in-context learning capabilities of LLMs, we propose
Few-Shot Preference Optimization (FSPO), which reframes reward modeling as a
meta-learning problem. Under this framework, an LLM learns to quickly adapt to
a user via a few labeled preferences from that user, constructing a
personalized reward function for them. Additionally, since real-world
preference data is scarce and challenging to collect at scale, we propose
careful design choices to construct synthetic preference datasets for
personalization, generating over 1M synthetic personalized preferences using
publicly available LLMs. In particular, to successfully transfer from synthetic
data to real users, we find it crucial for the data to exhibit both high
diversity and coherent, self-consistent structure. We evaluate FSPO on
personalized open-ended generation for up to 1,500 synthetic users across
across three domains: movie reviews, pedagogical adaptation based on
educational background, and general question answering, along with a controlled
human study. Overall, FSPO achieves an 87% Alpaca Eval winrate on average in
generating responses that are personalized to synthetic users and a 72% winrate
with real human users in open-ended question answering.Summary
AI-Generated Summary