SynthesizeMe ! Induction d'invites guidées par le persona pour des modèles de récompense personnalisés dans les LLM
SynthesizeMe! Inducing Persona-Guided Prompts for Personalized Reward Models in LLMs
June 5, 2025
Auteurs: Michael J Ryan, Omar Shaikh, Aditri Bhagirath, Daniel Frees, William Held, Diyi Yang
cs.AI
Résumé
Les récents appels en faveur d'un alignement pluraliste des modèles de langage de grande taille (LLMs) encouragent l'adaptation des modèles aux préférences variées des utilisateurs. Cependant, la plupart des travaux antérieurs sur les modèles de récompense personnalisés reposent fortement sur des informations d'identité supplémentaires, telles que des détails démographiques ou un ensemble prédéfini de catégories de préférences. À cette fin, nous introduisons SynthesizeMe, une approche visant à induire des personas utilisateurs synthétiques à partir des interactions des utilisateurs pour la modélisation de récompense personnalisée. SynthesizeMe génère et vérifie d'abord un raisonnement pour expliquer les préférences des utilisateurs, puis induit des personas utilisateurs synthétiques à partir de ce raisonnement, et enfin filtre les interactions utilisateur antérieures informatives afin de construire des invites personnalisées pour un utilisateur particulier. Nous montrons que l'utilisation des invites induites par SynthesizeMe améliore la précision du jugement personnalisé par LLM de 4,4 % sur Chatbot Arena. La combinaison des invites dérivées de SynthesizeMe avec un modèle de récompense atteint les meilleures performances sur PersonalRewardBench : une nouvelle curation d'interactions stratifiées par utilisateur avec des chatbots collectées auprès de 854 utilisateurs de Chatbot Arena et PRISM.
English
Recent calls for pluralistic alignment of Large Language Models (LLMs)
encourage adapting models to diverse user preferences. However, most prior work
on personalized reward models heavily rely on additional identity information,
such as demographic details or a predefined set of preference categories. To
this end, we introduce SynthesizeMe, an approach to inducing synthetic user
personas from user interactions for personalized reward modeling. SynthesizeMe
first generates and verifies reasoning to explain user preferences, then
induces synthetic user personas from that reasoning, and finally filters to
informative prior user interactions in order to build personalized prompts for
a particular user. We show that using SynthesizeMe induced prompts improves
personalized LLM-as-a-judge accuracy by 4.4% on Chatbot Arena. Combining
SynthesizeMe derived prompts with a reward model achieves top performance on
PersonalRewardBench: a new curation of user-stratified interactions with
chatbots collected from 854 users of Chatbot Arena and PRISM.