ChatPaper.aiChatPaper

FSPO: Otimização de Preferência em Poucas Amostras de Dados de Preferência Sintéticos em LLMs Elicita Personalização Efetiva para Usuários Reais

FSPO: Few-Shot Preference Optimization of Synthetic Preference Data in LLMs Elicits Effective Personalization to Real Users

February 26, 2025
Autores: Anikait Singh, Sheryl Hsu, Kyle Hsu, Eric Mitchell, Stefano Ermon, Tatsunori Hashimoto, Archit Sharma, Chelsea Finn
cs.AI

Resumo

A personalização eficaz de LLMs é fundamental para uma ampla gama de aplicações de interface do usuário, como assistentes virtuais e curadoria de conteúdo. Inspirados nas fortes capacidades de aprendizado em contexto dos LLMs, propomos a Otimização de Preferência em Poucas Etapas (FSPO), que reformula a modelagem de recompensas como um problema de meta-aprendizado. Sob esse framework, um LLM aprende a se adaptar rapidamente a um usuário por meio de algumas preferências rotuladas desse usuário, construindo uma função de recompensa personalizada para ele. Além disso, uma vez que os dados de preferência do mundo real são escassos e desafiadores de coletar em grande escala, propomos escolhas de design cuidadosas para construir conjuntos de dados de preferência sintéticos para personalização, gerando mais de 1 milhão de preferências personalizadas sintéticas usando LLMs disponíveis publicamente. Em particular, para transferir com sucesso dos dados sintéticos para usuários reais, consideramos crucial que os dados apresentem alta diversidade e uma estrutura coerente e autoconsistente. Avaliamos o FSPO na geração personalizada de texto aberto para até 1.500 usuários sintéticos em três domínios: críticas de filmes, adaptação pedagógica com base no histórico educacional e resposta a perguntas gerais, juntamente com um estudo humano controlado. No geral, o FSPO alcança uma taxa de vitória média de 87% no Alpaca Eval na geração de respostas personalizadas para usuários sintéticos e uma taxa de vitória de 72% com usuários humanos reais na resposta a perguntas abertas.
English
Effective personalization of LLMs is critical for a broad range of user-interfacing applications such as virtual assistants and content curation. Inspired by the strong in-context learning capabilities of LLMs, we propose Few-Shot Preference Optimization (FSPO), which reframes reward modeling as a meta-learning problem. Under this framework, an LLM learns to quickly adapt to a user via a few labeled preferences from that user, constructing a personalized reward function for them. Additionally, since real-world preference data is scarce and challenging to collect at scale, we propose careful design choices to construct synthetic preference datasets for personalization, generating over 1M synthetic personalized preferences using publicly available LLMs. In particular, to successfully transfer from synthetic data to real users, we find it crucial for the data to exhibit both high diversity and coherent, self-consistent structure. We evaluate FSPO on personalized open-ended generation for up to 1,500 synthetic users across across three domains: movie reviews, pedagogical adaptation based on educational background, and general question answering, along with a controlled human study. Overall, FSPO achieves an 87% Alpaca Eval winrate on average in generating responses that are personalized to synthetic users and a 72% winrate with real human users in open-ended question answering.

Summary

AI-Generated Summary

PDF72February 27, 2025