ChatPaper.aiChatPaper

La Era de la Interacción Humana en el Mundo Real: Aprendizaje por Refuerzo a partir de Conversaciones con Usuarios

The Era of Real-World Human Interaction: RL from User Conversations

September 29, 2025
Autores: Chuanyang Jin, Jing Xu, Bo Liu, Leitian Tao, Olga Golovneva, Tianmin Shu, Wenting Zhao, Xian Li, Jason Weston
cs.AI

Resumen

Postulamos que, para lograr una mejora continua del modelo y una alineación multifacética, los modelos futuros deben aprender de la interacción humana natural. Los modelos conversacionales actuales se alinean utilizando comentarios humanos preanotados y generados por expertos. En este trabajo, presentamos el Aprendizaje por Refuerzo a partir de la Interacción Humana (RLHI, por sus siglas en inglés), un paradigma que aprende directamente de conversaciones de usuarios en entornos no controlados. Desarrollamos dos métodos complementarios: (1) RLHI con Reescribas Guiadas por el Usuario, que revisa las respuestas insatisfactorias del modelo basándose en las respuestas de seguimiento en lenguaje natural de los usuarios, y (2) RLHI con Recompensas Basadas en el Usuario, que aprende mediante un modelo de recompensa condicionado al conocimiento del historial de interacción a largo plazo del usuario (denominado persona). Juntos, estos métodos vinculan las personas a largo plazo con las preferencias a nivel de turno mediante la optimización de preferencias condicionadas por la persona. Entrenados en conversaciones derivadas de WildChat, ambas variantes de RLHI superan a líneas de base sólidas en personalización y seguimiento de instrucciones, y comentarios similares mejoran el rendimiento en pruebas de razonamiento. Estos resultados sugieren que la interacción humana orgánica ofrece una supervisión escalable y efectiva para la alineación personalizada.
English
We posit that to achieve continual model improvement and multifaceted alignment, future models must learn from natural human interaction. Current conversational models are aligned using pre-annotated, expert-generated human feedback. In this work, we introduce Reinforcement Learning from Human Interaction (RLHI), a paradigm that learns directly from in-the-wild user conversations. We develop two complementary methods: (1) RLHI with User-Guided Rewrites, which revises unsatisfactory model outputs based on users' natural-language follow-up responses, (2) RLHI with User-Based Rewards, which learns via a reward model conditioned on knowledge of the user's long-term interaction history (termed persona). Together, these methods link long-term user personas to turn-level preferences via persona-conditioned preference optimization. Trained on conversations derived from WildChat, both RLHI variants outperform strong baselines in personalization and instruction-following, and similar feedback enhances performance on reasoning benchmarks. These results suggest organic human interaction offers scalable, effective supervision for personalized alignment.
PDF113September 30, 2025