Apprendimento di Agenti Personalizzati dal Feedback Umano

Abstract

Gli agenti di intelligenza artificiale moderni sono potenti ma spesso non riescono ad allinearsi alle preferenze idiosincratiche ed evolutive dei singoli utenti. Gli approcci precedenti si basano tipicamente su dataset statici, addestrando modelli di preferenza implicita sulla cronologia delle interazioni o codificando profili utente in memorie esterne. Tuttavia, questi approcci faticano con nuovi utenti e con preferenze che cambiano nel tempo. Introduciamo Agenti Personalizzati dal Feedback Umano (PAHF), un framework per la personalizzazione continua in cui gli agenti apprendono online dalle interazioni in tempo reale utilizzando una memoria esplicita per utente. PAHF opera attraverso un ciclo in tre fasi: (1) ricerca di chiarimenti pre-azione per risolvere ambiguità, (2) ancoraggio delle azioni alle preferenze recuperate dalla memoria, e (3) integrazione del feedback post-azione per aggiornare la memoria quando le preferenze cambiano. Per valutare questa capacità, sviluppiamo un protocollo in quattro fasi e due benchmark nell'ambito della manipolazione embodied e dello shopping online. Questi benchmark quantificano la capacità di un agente di apprendere preferenze iniziali da zero e di adattarsi successivamente a cambiamenti della persona. La nostra analisi teorica e i risultati empirici mostrano che l'integrazione di una memoria esplicita con canali di feedback duali è cruciale: PAHF apprende in modo sostanzialmente più rapido e supera costantemente sia i baseline senza memoria che quelli a canale singolo, riducendo l'errore di personalizzazione iniziale e consentendo un rapido adattamento ai cambiamenti delle preferenze.

English

Modern AI agents are powerful but often fail to align with the idiosyncratic, evolving preferences of individual users. Prior approaches typically rely on static datasets, either training implicit preference models on interaction history or encoding user profiles in external memory. However, these approaches struggle with new users and with preferences that change over time. We introduce Personalized Agents from Human Feedback (PAHF), a framework for continual personalization in which agents learn online from live interaction using explicit per-user memory. PAHF operationalizes a three-step loop: (1) seeking pre-action clarification to resolve ambiguity, (2) grounding actions in preferences retrieved from memory, and (3) integrating post-action feedback to update memory when preferences drift. To evaluate this capability, we develop a four-phase protocol and two benchmarks in embodied manipulation and online shopping. These benchmarks quantify an agent's ability to learn initial preferences from scratch and subsequently adapt to persona shifts. Our theoretical analysis and empirical results show that integrating explicit memory with dual feedback channels is critical: PAHF learns substantially faster and consistently outperforms both no-memory and single-channel baselines, reducing initial personalization error and enabling rapid adaptation to preference shifts.

Apprendimento di Agenti Personalizzati dal Feedback Umano

Learning Personalized Agents from Human Feedback

Abstract

Support