Het Tijdperk van Echte Menselijke Interactie: Reinforcement Learning vanuit Gebruikersgesprekken
The Era of Real-World Human Interaction: RL from User Conversations
September 29, 2025
Auteurs: Chuanyang Jin, Jing Xu, Bo Liu, Leitian Tao, Olga Golovneva, Tianmin Shu, Wenting Zhao, Xian Li, Jason Weston
cs.AI
Samenvatting
Wij stellen dat toekomstige modellen moeten leren van natuurlijke menselijke interactie om voortdurende modelverbetering en veelzijdige afstemming te bereiken. Huidige conversatiemodellen worden afgestemd met behulp van vooraf geannoteerde, door experts gegenereerde menselijke feedback. In dit werk introduceren we Reinforcement Learning from Human Interaction (RLHI), een paradigma dat rechtstreeks leert uit gebruikersgesprekken in de praktijk. We ontwikkelen twee complementaire methoden: (1) RLHI met gebruikersgestuurde herschrijvingen, die onbevredigende modeluitvoer herziet op basis van natuurlijketaal vervolgreacties van gebruikers, en (2) RLHI met gebruikersgebaseerde beloningen, dat leert via een beloningsmodel dat is afgestemd op kennis van de langetermijninteractiegeschiedenis van de gebruiker (ook wel persona genoemd). Samen koppelen deze methoden langetermijngebruikerspersona's aan voorkeuren op gespreksniveau via persona-geconditioneerde voorkeursoptimalisatie. Getraind op gesprekken afkomstig uit WildChat, presteren beide RLHI-varianten beter dan sterke baseline-modellen in personalisatie en instructievolging, en vergelijkbare feedback verbetert de prestaties op redeneerbenchmarks. Deze resultaten suggereren dat organische menselijke interactie schaalbare en effectieve supervisie biedt voor gepersonaliseerde afstemming.
English
We posit that to achieve continual model improvement and multifaceted
alignment, future models must learn from natural human interaction. Current
conversational models are aligned using pre-annotated, expert-generated human
feedback. In this work, we introduce Reinforcement Learning from Human
Interaction (RLHI), a paradigm that learns directly from in-the-wild user
conversations. We develop two complementary methods: (1) RLHI with User-Guided
Rewrites, which revises unsatisfactory model outputs based on users'
natural-language follow-up responses, (2) RLHI with User-Based Rewards, which
learns via a reward model conditioned on knowledge of the user's long-term
interaction history (termed persona). Together, these methods link long-term
user personas to turn-level preferences via persona-conditioned preference
optimization. Trained on conversations derived from WildChat, both RLHI
variants outperform strong baselines in personalization and
instruction-following, and similar feedback enhances performance on reasoning
benchmarks. These results suggest organic human interaction offers scalable,
effective supervision for personalized alignment.