ChatPaper.aiChatPaper

Het Tijdperk van Echte Menselijke Interactie: Reinforcement Learning vanuit Gebruikersgesprekken

The Era of Real-World Human Interaction: RL from User Conversations

September 29, 2025
Auteurs: Chuanyang Jin, Jing Xu, Bo Liu, Leitian Tao, Olga Golovneva, Tianmin Shu, Wenting Zhao, Xian Li, Jason Weston
cs.AI

Samenvatting

Wij stellen dat toekomstige modellen moeten leren van natuurlijke menselijke interactie om voortdurende modelverbetering en veelzijdige afstemming te bereiken. Huidige conversatiemodellen worden afgestemd met behulp van vooraf geannoteerde, door experts gegenereerde menselijke feedback. In dit werk introduceren we Reinforcement Learning from Human Interaction (RLHI), een paradigma dat rechtstreeks leert uit gebruikersgesprekken in de praktijk. We ontwikkelen twee complementaire methoden: (1) RLHI met gebruikersgestuurde herschrijvingen, die onbevredigende modeluitvoer herziet op basis van natuurlijketaal vervolgreacties van gebruikers, en (2) RLHI met gebruikersgebaseerde beloningen, dat leert via een beloningsmodel dat is afgestemd op kennis van de langetermijninteractiegeschiedenis van de gebruiker (ook wel persona genoemd). Samen koppelen deze methoden langetermijngebruikerspersona's aan voorkeuren op gespreksniveau via persona-geconditioneerde voorkeursoptimalisatie. Getraind op gesprekken afkomstig uit WildChat, presteren beide RLHI-varianten beter dan sterke baseline-modellen in personalisatie en instructievolging, en vergelijkbare feedback verbetert de prestaties op redeneerbenchmarks. Deze resultaten suggereren dat organische menselijke interactie schaalbare en effectieve supervisie biedt voor gepersonaliseerde afstemming.
English
We posit that to achieve continual model improvement and multifaceted alignment, future models must learn from natural human interaction. Current conversational models are aligned using pre-annotated, expert-generated human feedback. In this work, we introduce Reinforcement Learning from Human Interaction (RLHI), a paradigm that learns directly from in-the-wild user conversations. We develop two complementary methods: (1) RLHI with User-Guided Rewrites, which revises unsatisfactory model outputs based on users' natural-language follow-up responses, (2) RLHI with User-Based Rewards, which learns via a reward model conditioned on knowledge of the user's long-term interaction history (termed persona). Together, these methods link long-term user personas to turn-level preferences via persona-conditioned preference optimization. Trained on conversations derived from WildChat, both RLHI variants outperform strong baselines in personalization and instruction-following, and similar feedback enhances performance on reasoning benchmarks. These results suggest organic human interaction offers scalable, effective supervision for personalized alignment.
PDF183September 30, 2025