ChatPaper.aiChatPaper

FSPO: Optimización de Preferencias con Pocos Ejemplos sobre Datos Sintéticos de Preferencias en Modelos de Lenguaje de Gran Escala Facilita una Personalización Efectiva para Usuarios Reales

FSPO: Few-Shot Preference Optimization of Synthetic Preference Data in LLMs Elicits Effective Personalization to Real Users

February 26, 2025
Autores: Anikait Singh, Sheryl Hsu, Kyle Hsu, Eric Mitchell, Stefano Ermon, Tatsunori Hashimoto, Archit Sharma, Chelsea Finn
cs.AI

Resumen

La personalización efectiva de los LLM (Modelos de Lenguaje de Gran Escala) es crucial para una amplia gama de aplicaciones orientadas al usuario, como asistentes virtuales y curación de contenido. Inspirados por las sólidas capacidades de aprendizaje en contexto de los LLM, proponemos la Optimización de Preferencias con Pocos Ejemplos (FSPO, por sus siglas en inglés), que reformula el modelado de recompensas como un problema de metaaprendizaje. Bajo este marco, un LLM aprende a adaptarse rápidamente a un usuario a través de unas pocas preferencias etiquetadas de ese usuario, construyendo una función de recompensa personalizada para él. Además, dado que los datos de preferencias del mundo real son escasos y difíciles de recopilar a gran escala, proponemos decisiones de diseño cuidadosas para construir conjuntos de datos sintéticos de preferencias para la personalización, generando más de 1 millón de preferencias personalizadas sintéticas utilizando LLM disponibles públicamente. En particular, para transferir con éxito los datos sintéticos a usuarios reales, encontramos que es crucial que los datos exhiban tanto una alta diversidad como una estructura coherente y autoconsistente. Evaluamos FSPO en la generación abierta personalizada para hasta 1,500 usuarios sintéticos en tres dominios: reseñas de películas, adaptación pedagógica basada en antecedentes educativos y respuesta general a preguntas, junto con un estudio controlado con humanos. En general, FSPO logra una tasa de éxito promedio del 87% en Alpaca Eval al generar respuestas personalizadas para usuarios sintéticos y una tasa de éxito del 72% con usuarios humanos reales en la respuesta abierta a preguntas.
English
Effective personalization of LLMs is critical for a broad range of user-interfacing applications such as virtual assistants and content curation. Inspired by the strong in-context learning capabilities of LLMs, we propose Few-Shot Preference Optimization (FSPO), which reframes reward modeling as a meta-learning problem. Under this framework, an LLM learns to quickly adapt to a user via a few labeled preferences from that user, constructing a personalized reward function for them. Additionally, since real-world preference data is scarce and challenging to collect at scale, we propose careful design choices to construct synthetic preference datasets for personalization, generating over 1M synthetic personalized preferences using publicly available LLMs. In particular, to successfully transfer from synthetic data to real users, we find it crucial for the data to exhibit both high diversity and coherent, self-consistent structure. We evaluate FSPO on personalized open-ended generation for up to 1,500 synthetic users across across three domains: movie reviews, pedagogical adaptation based on educational background, and general question answering, along with a controlled human study. Overall, FSPO achieves an 87% Alpaca Eval winrate on average in generating responses that are personalized to synthetic users and a 72% winrate with real human users in open-ended question answering.

Summary

AI-Generated Summary

PDF72February 27, 2025