FSPO : L'optimisation des préférences en quelques exemples de données de préférence synthétiques dans les LLM favorise une personnalisation efficace pour les utilisateurs réels
FSPO: Few-Shot Preference Optimization of Synthetic Preference Data in LLMs Elicits Effective Personalization to Real Users
February 26, 2025
Auteurs: Anikait Singh, Sheryl Hsu, Kyle Hsu, Eric Mitchell, Stefano Ermon, Tatsunori Hashimoto, Archit Sharma, Chelsea Finn
cs.AI
Résumé
La personnalisation efficace des LLM est cruciale pour un large éventail d'applications d'interface utilisateur telles que les assistants virtuels et la curation de contenu. Inspirés par les fortes capacités d'apprentissage en contexte des LLM, nous proposons l'Optimisation des Préférences en Quelques Étapes (FSPO), qui reformule la modélisation de la récompense comme un problème d'apprentissage méta. Dans ce cadre, un LLM apprend à s'adapter rapidement à un utilisateur via quelques préférences étiquetées de cet utilisateur, construisant ainsi une fonction de récompense personnalisée pour celui-ci. De plus, étant donné que les données de préférences du monde réel sont rares et difficiles à collecter à grande échelle, nous proposons des choix de conception soigneux pour construire des ensembles de données de préférences synthétiques pour la personnalisation, générant plus de 1 million de préférences personnalisées synthétiques à l'aide de LLM disponibles publiquement. En particulier, pour réussir le transfert des données synthétiques aux utilisateurs réels, nous considérons crucial que les données présentent à la fois une grande diversité et une structure cohérente et auto-cohérente. Nous évaluons FSPO sur la génération personnalisée ouverte pour jusqu'à 1 500 utilisateurs synthétiques à travers trois domaines : critiques de films, adaptation pédagogique basée sur le parcours éducatif et réponse à des questions générales, ainsi qu'une étude humaine contrôlée. Dans l'ensemble, FSPO atteint un taux de réussite Alpaca Eval de 87 % en moyenne dans la génération de réponses personnalisées pour les utilisateurs synthétiques et un taux de réussite de 72 % avec les utilisateurs humains réels dans la réponse à des questions ouvertes.
English
Effective personalization of LLMs is critical for a broad range of
user-interfacing applications such as virtual assistants and content curation.
Inspired by the strong in-context learning capabilities of LLMs, we propose
Few-Shot Preference Optimization (FSPO), which reframes reward modeling as a
meta-learning problem. Under this framework, an LLM learns to quickly adapt to
a user via a few labeled preferences from that user, constructing a
personalized reward function for them. Additionally, since real-world
preference data is scarce and challenging to collect at scale, we propose
careful design choices to construct synthetic preference datasets for
personalization, generating over 1M synthetic personalized preferences using
publicly available LLMs. In particular, to successfully transfer from synthetic
data to real users, we find it crucial for the data to exhibit both high
diversity and coherent, self-consistent structure. We evaluate FSPO on
personalized open-ended generation for up to 1,500 synthetic users across
across three domains: movie reviews, pedagogical adaptation based on
educational background, and general question answering, along with a controlled
human study. Overall, FSPO achieves an 87% Alpaca Eval winrate on average in
generating responses that are personalized to synthetic users and a 72% winrate
with real human users in open-ended question answering.Summary
AI-Generated Summary