L'Ère de l'Interaction Humaine en Monde Réel : Apprentissage par Renforcement à partir des Conversations Utilisateur
The Era of Real-World Human Interaction: RL from User Conversations
September 29, 2025
papers.authors: Chuanyang Jin, Jing Xu, Bo Liu, Leitian Tao, Olga Golovneva, Tianmin Shu, Wenting Zhao, Xian Li, Jason Weston
cs.AI
papers.abstract
Nous postulons que pour parvenir à une amélioration continue des modèles et à un alignement multidimensionnel, les modèles futurs doivent apprendre à partir d'interactions humaines naturelles. Les modèles conversationnels actuels sont alignés à l'aide de retours humains pré-annotés, générés par des experts. Dans ce travail, nous introduisons l'apprentissage par renforcement à partir d'interactions humaines (Reinforcement Learning from Human Interaction, RLHI), un paradigme qui apprend directement à partir de conversations d'utilisateurs en situation réelle. Nous développons deux méthodes complémentaires : (1) le RLHI avec réécritures guidées par l'utilisateur, qui modifie les sorties insatisfaisantes du modèle en fonction des réponses de suivi en langage naturel des utilisateurs, et (2) le RLHI avec récompenses basées sur l'utilisateur, qui apprend via un modèle de récompense conditionné par la connaissance de l'historique d'interaction à long terme de l'utilisateur (appelé persona). Ensemble, ces méthodes relient les personas utilisateurs à long terme aux préférences au niveau des tours de conversation via une optimisation des préférences conditionnée par la persona. Entraînés sur des conversations issues de WildChat, les deux variantes du RLHI surpassent des bases de référence solides en matière de personnalisation et de suivi des instructions, et des retours similaires améliorent les performances sur des benchmarks de raisonnement. Ces résultats suggèrent que l'interaction humaine organique offre une supervision scalable et efficace pour un alignement personnalisé.
English
We posit that to achieve continual model improvement and multifaceted
alignment, future models must learn from natural human interaction. Current
conversational models are aligned using pre-annotated, expert-generated human
feedback. In this work, we introduce Reinforcement Learning from Human
Interaction (RLHI), a paradigm that learns directly from in-the-wild user
conversations. We develop two complementary methods: (1) RLHI with User-Guided
Rewrites, which revises unsatisfactory model outputs based on users'
natural-language follow-up responses, (2) RLHI with User-Based Rewards, which
learns via a reward model conditioned on knowledge of the user's long-term
interaction history (termed persona). Together, these methods link long-term
user personas to turn-level preferences via persona-conditioned preference
optimization. Trained on conversations derived from WildChat, both RLHI
variants outperform strong baselines in personalization and
instruction-following, and similar feedback enhances performance on reasoning
benchmarks. These results suggest organic human interaction offers scalable,
effective supervision for personalized alignment.