L'Ère de l'Interaction Humaine en Monde Réel : Apprentissage par Renforcement à partir des Conversations Utilisateur

papers.abstract

Nous postulons que pour parvenir à une amélioration continue des modèles et à un alignement multidimensionnel, les modèles futurs doivent apprendre à partir d'interactions humaines naturelles. Les modèles conversationnels actuels sont alignés à l'aide de retours humains pré-annotés, générés par des experts. Dans ce travail, nous introduisons l'apprentissage par renforcement à partir d'interactions humaines (Reinforcement Learning from Human Interaction, RLHI), un paradigme qui apprend directement à partir de conversations d'utilisateurs en situation réelle. Nous développons deux méthodes complémentaires : (1) le RLHI avec réécritures guidées par l'utilisateur, qui modifie les sorties insatisfaisantes du modèle en fonction des réponses de suivi en langage naturel des utilisateurs, et (2) le RLHI avec récompenses basées sur l'utilisateur, qui apprend via un modèle de récompense conditionné par la connaissance de l'historique d'interaction à long terme de l'utilisateur (appelé persona). Ensemble, ces méthodes relient les personas utilisateurs à long terme aux préférences au niveau des tours de conversation via une optimisation des préférences conditionnée par la persona. Entraînés sur des conversations issues de WildChat, les deux variantes du RLHI surpassent des bases de référence solides en matière de personnalisation et de suivi des instructions, et des retours similaires améliorent les performances sur des benchmarks de raisonnement. Ces résultats suggèrent que l'interaction humaine organique offre une supervision scalable et efficace pour un alignement personnalisé.

English

We posit that to achieve continual model improvement and multifaceted alignment, future models must learn from natural human interaction. Current conversational models are aligned using pre-annotated, expert-generated human feedback. In this work, we introduce Reinforcement Learning from Human Interaction (RLHI), a paradigm that learns directly from in-the-wild user conversations. We develop two complementary methods: (1) RLHI with User-Guided Rewrites, which revises unsatisfactory model outputs based on users' natural-language follow-up responses, (2) RLHI with User-Based Rewards, which learns via a reward model conditioned on knowledge of the user's long-term interaction history (termed persona). Together, these methods link long-term user personas to turn-level preferences via persona-conditioned preference optimization. Trained on conversations derived from WildChat, both RLHI variants outperform strong baselines in personalization and instruction-following, and similar feedback enhances performance on reasoning benchmarks. These results suggest organic human interaction offers scalable, effective supervision for personalized alignment.

L'Ère de l'Interaction Humaine en Monde Réel : Apprentissage par Renforcement à partir des Conversations Utilisateur

The Era of Real-World Human Interaction: RL from User Conversations

papers.abstract

Support