Leren van Gepersonaliseerde Agents op Basis van Menselijke Feedback

Samenvatting

Moderne AI-agenten zijn krachtig, maar slagen er vaak niet in om af te stemmen op de idiosyncratische, evoluerende voorkeuren van individuele gebruikers. Eerdere benaderingen zijn typisch afhankelijk van statische datasets, waarbij ofwel impliciete voorkeursmodellen worden getraind op interactiegeschiedenis, ofwel gebruikersprofielen worden gecodeerd in extern geheugen. Deze benaderingen hebben echter moeite met nieuwe gebruikers en met voorkeuren die in de loop van de tijd veranderen. Wij introduceren Personalized Agents from Human Feedback (PAHF), een raamwerk voor continue personalisatie waarin agenten online leren van live-interactie met behulp van expliciet, per gebruiker geheugen. PAHF operationaliseert een drie-stappenlus: (1) het vragen om opheldering vóór een actie om ambiguïteit op te lossen, (2) het verankeren van acties in voorkeuren die uit het geheugen worden opgehaald, en (3) het integreren van feedback na een actie om het geheugen bij te werken wanneer voorkeuren verschuiven. Om deze capaciteit te evalueren, ontwikkelen we een vierfasenprotocol en twee benchmarks in 'embodied manipulation' en online winkelen. Deze benchmarks kwantificeren het vermogen van een agent om initiële voorkeuren vanaf nul te leren en vervolgens aan te passen aan persona-verschuivingen. Onze theoretische analyse en empirische resultaten tonen aan dat de integratie van expliciet geheugen met dubbele feedbackkanalen cruciaal is: PAHF leert aanzienlijk sneller en presteert consistent beter dan zowel baseline-modellen zonder geheugen als met enkelvoudige kanalen, waardoor de initiële personalisatiefout wordt verminderd en snelle aanpassing aan voorkeursverschuivingen mogelijk wordt.

English

Modern AI agents are powerful but often fail to align with the idiosyncratic, evolving preferences of individual users. Prior approaches typically rely on static datasets, either training implicit preference models on interaction history or encoding user profiles in external memory. However, these approaches struggle with new users and with preferences that change over time. We introduce Personalized Agents from Human Feedback (PAHF), a framework for continual personalization in which agents learn online from live interaction using explicit per-user memory. PAHF operationalizes a three-step loop: (1) seeking pre-action clarification to resolve ambiguity, (2) grounding actions in preferences retrieved from memory, and (3) integrating post-action feedback to update memory when preferences drift. To evaluate this capability, we develop a four-phase protocol and two benchmarks in embodied manipulation and online shopping. These benchmarks quantify an agent's ability to learn initial preferences from scratch and subsequently adapt to persona shifts. Our theoretical analysis and empirical results show that integrating explicit memory with dual feedback channels is critical: PAHF learns substantially faster and consistently outperforms both no-memory and single-channel baselines, reducing initial personalization error and enabling rapid adaptation to preference shifts.

Leren van Gepersonaliseerde Agents op Basis van Menselijke Feedback

Learning Personalized Agents from Human Feedback

Samenvatting

Support