Die Ära der realen menschlichen Interaktion: Reinforcement Learning aus Nutzerkonversationen
The Era of Real-World Human Interaction: RL from User Conversations
September 29, 2025
papers.authors: Chuanyang Jin, Jing Xu, Bo Liu, Leitian Tao, Olga Golovneva, Tianmin Shu, Wenting Zhao, Xian Li, Jason Weston
cs.AI
papers.abstract
Wir postulieren, dass zukünftige Modelle, um kontinuierliche Verbesserungen und vielseitige Ausrichtung zu erreichen, aus natürlichen menschlichen Interaktionen lernen müssen. Aktuelle konversationelle Modelle werden mithilfe von vorannotierten, von Experten generierten menschlichen Rückmeldungen ausgerichtet. In dieser Arbeit führen wir Reinforcement Learning from Human Interaction (RLHI) ein, ein Paradigma, das direkt aus realen Benutzerkonversationen lernt. Wir entwickeln zwei komplementäre Methoden: (1) RLHI mit benutzergeleiteten Überarbeitungen, die unbefriedigende Modellausgaben basierend auf den natürlichen Sprachantworten der Benutzer revidiert, und (2) RLHI mit benutzerbasierten Belohnungen, das über ein Belohnungsmodell lernt, das auf dem Wissen über die langfristige Interaktionshistorie des Benutzers (als Persona bezeichnet) basiert. Zusammen verknüpfen diese Methoden langfristige Benutzerpersonas mit turn-basierten Präferenzen durch persona-konditionierte Präferenzoptimierung. Beide RLHI-Varianten, die auf Konversationen aus WildChat trainiert wurden, übertreffen starke Baselines in Bezug auf Personalisierung und Befolgung von Anweisungen, und ähnliche Rückmeldungen verbessern die Leistung bei Reasoning-Benchmarks. Diese Ergebnisse deuten darauf hin, dass organische menschliche Interaktion skalierbare und effektive Supervision für personalisierte Ausrichtung bietet.
English
We posit that to achieve continual model improvement and multifaceted
alignment, future models must learn from natural human interaction. Current
conversational models are aligned using pre-annotated, expert-generated human
feedback. In this work, we introduce Reinforcement Learning from Human
Interaction (RLHI), a paradigm that learns directly from in-the-wild user
conversations. We develop two complementary methods: (1) RLHI with User-Guided
Rewrites, which revises unsatisfactory model outputs based on users'
natural-language follow-up responses, (2) RLHI with User-Based Rewards, which
learns via a reward model conditioned on knowledge of the user's long-term
interaction history (termed persona). Together, these methods link long-term
user personas to turn-level preferences via persona-conditioned preference
optimization. Trained on conversations derived from WildChat, both RLHI
variants outperform strong baselines in personalization and
instruction-following, and similar feedback enhances performance on reasoning
benchmarks. These results suggest organic human interaction offers scalable,
effective supervision for personalized alignment.