ChatPaper.aiChatPaper

Die Ära der realen menschlichen Interaktion: Reinforcement Learning aus Nutzerkonversationen

The Era of Real-World Human Interaction: RL from User Conversations

September 29, 2025
papers.authors: Chuanyang Jin, Jing Xu, Bo Liu, Leitian Tao, Olga Golovneva, Tianmin Shu, Wenting Zhao, Xian Li, Jason Weston
cs.AI

papers.abstract

Wir postulieren, dass zukünftige Modelle, um kontinuierliche Verbesserungen und vielseitige Ausrichtung zu erreichen, aus natürlichen menschlichen Interaktionen lernen müssen. Aktuelle konversationelle Modelle werden mithilfe von vorannotierten, von Experten generierten menschlichen Rückmeldungen ausgerichtet. In dieser Arbeit führen wir Reinforcement Learning from Human Interaction (RLHI) ein, ein Paradigma, das direkt aus realen Benutzerkonversationen lernt. Wir entwickeln zwei komplementäre Methoden: (1) RLHI mit benutzergeleiteten Überarbeitungen, die unbefriedigende Modellausgaben basierend auf den natürlichen Sprachantworten der Benutzer revidiert, und (2) RLHI mit benutzerbasierten Belohnungen, das über ein Belohnungsmodell lernt, das auf dem Wissen über die langfristige Interaktionshistorie des Benutzers (als Persona bezeichnet) basiert. Zusammen verknüpfen diese Methoden langfristige Benutzerpersonas mit turn-basierten Präferenzen durch persona-konditionierte Präferenzoptimierung. Beide RLHI-Varianten, die auf Konversationen aus WildChat trainiert wurden, übertreffen starke Baselines in Bezug auf Personalisierung und Befolgung von Anweisungen, und ähnliche Rückmeldungen verbessern die Leistung bei Reasoning-Benchmarks. Diese Ergebnisse deuten darauf hin, dass organische menschliche Interaktion skalierbare und effektive Supervision für personalisierte Ausrichtung bietet.
English
We posit that to achieve continual model improvement and multifaceted alignment, future models must learn from natural human interaction. Current conversational models are aligned using pre-annotated, expert-generated human feedback. In this work, we introduce Reinforcement Learning from Human Interaction (RLHI), a paradigm that learns directly from in-the-wild user conversations. We develop two complementary methods: (1) RLHI with User-Guided Rewrites, which revises unsatisfactory model outputs based on users' natural-language follow-up responses, (2) RLHI with User-Based Rewards, which learns via a reward model conditioned on knowledge of the user's long-term interaction history (termed persona). Together, these methods link long-term user personas to turn-level preferences via persona-conditioned preference optimization. Trained on conversations derived from WildChat, both RLHI variants outperform strong baselines in personalization and instruction-following, and similar feedback enhances performance on reasoning benchmarks. These results suggest organic human interaction offers scalable, effective supervision for personalized alignment.
PDF113September 30, 2025