La Era de la Interacción Humana en el Mundo Real: Aprendizaje por Refuerzo a partir de Conversaciones con Usuarios
The Era of Real-World Human Interaction: RL from User Conversations
September 29, 2025
Autores: Chuanyang Jin, Jing Xu, Bo Liu, Leitian Tao, Olga Golovneva, Tianmin Shu, Wenting Zhao, Xian Li, Jason Weston
cs.AI
Resumen
Postulamos que, para lograr una mejora continua del modelo y una alineación multifacética, los modelos futuros deben aprender de la interacción humana natural. Los modelos conversacionales actuales se alinean utilizando comentarios humanos preanotados y generados por expertos. En este trabajo, presentamos el Aprendizaje por Refuerzo a partir de la Interacción Humana (RLHI, por sus siglas en inglés), un paradigma que aprende directamente de conversaciones de usuarios en entornos no controlados. Desarrollamos dos métodos complementarios: (1) RLHI con Reescribas Guiadas por el Usuario, que revisa las respuestas insatisfactorias del modelo basándose en las respuestas de seguimiento en lenguaje natural de los usuarios, y (2) RLHI con Recompensas Basadas en el Usuario, que aprende mediante un modelo de recompensa condicionado al conocimiento del historial de interacción a largo plazo del usuario (denominado persona). Juntos, estos métodos vinculan las personas a largo plazo con las preferencias a nivel de turno mediante la optimización de preferencias condicionadas por la persona. Entrenados en conversaciones derivadas de WildChat, ambas variantes de RLHI superan a líneas de base sólidas en personalización y seguimiento de instrucciones, y comentarios similares mejoran el rendimiento en pruebas de razonamiento. Estos resultados sugieren que la interacción humana orgánica ofrece una supervisión escalable y efectiva para la alineación personalizada.
English
We posit that to achieve continual model improvement and multifaceted
alignment, future models must learn from natural human interaction. Current
conversational models are aligned using pre-annotated, expert-generated human
feedback. In this work, we introduce Reinforcement Learning from Human
Interaction (RLHI), a paradigm that learns directly from in-the-wild user
conversations. We develop two complementary methods: (1) RLHI with User-Guided
Rewrites, which revises unsatisfactory model outputs based on users'
natural-language follow-up responses, (2) RLHI with User-Based Rewards, which
learns via a reward model conditioned on knowledge of the user's long-term
interaction history (termed persona). Together, these methods link long-term
user personas to turn-level preferences via persona-conditioned preference
optimization. Trained on conversations derived from WildChat, both RLHI
variants outperform strong baselines in personalization and
instruction-following, and similar feedback enhances performance on reasoning
benchmarks. These results suggest organic human interaction offers scalable,
effective supervision for personalized alignment.