Apprentissage d’agents personnalisés à partir de retours humains

Résumé

Les agents d'IA modernes sont puissants mais échouent souvent à s'aligner sur les préférences idiosyncrasiques et évolutives des utilisateurs individuels. Les approches antérieures reposent généralement sur des jeux de données statiques, soit en entraînant des modèles de préférences implicites sur l'historique des interactions, soit en encodant des profils utilisateurs dans une mémoire externe. Cependant, ces approches peinent avec les nouveaux utilisateurs et avec les préférences qui changent dans le temps. Nous présentons les **Agents Personnalisés par Retour Humain (APRH)** , un cadre pour la personnalisation continue dans lequel les agents apprennent en ligne à partir d'interactions en direct en utilisant une mémoire explicite par utilisateur. APRH opérationnalise une boucle en trois étapes : (1) la recherche de clarification pré-action pour résoudre l'ambiguïté, (2) l'ancrage des actions dans les préférences récupérées depuis la mémoire, et (3) l'intégration des retours post-action pour mettre à jour la mémoire lors de dérives des préférences. Pour évaluer cette capacité, nous développons un protocole en quatre phases et deux benchmarks en manipulation incarnée et en shopping en ligne. Ces benchmarks quantifient la capacité d'un agent à apprendre des préférences initiales à partir de rien et à s'adapter ensuite à des changements de persona. Notre analyse théorique et nos résultats empiriques montrent que l'intégration d'une mémoire explicite avec des canaux de retour doubles est cruciale : APRH apprend substantiellement plus vite et surpasse systématiquement les lignes de base sans mémoire et à canal unique, réduisant l'erreur de personnalisation initiale et permettant une adaptation rapide aux changements de préférences.

English

Modern AI agents are powerful but often fail to align with the idiosyncratic, evolving preferences of individual users. Prior approaches typically rely on static datasets, either training implicit preference models on interaction history or encoding user profiles in external memory. However, these approaches struggle with new users and with preferences that change over time. We introduce Personalized Agents from Human Feedback (PAHF), a framework for continual personalization in which agents learn online from live interaction using explicit per-user memory. PAHF operationalizes a three-step loop: (1) seeking pre-action clarification to resolve ambiguity, (2) grounding actions in preferences retrieved from memory, and (3) integrating post-action feedback to update memory when preferences drift. To evaluate this capability, we develop a four-phase protocol and two benchmarks in embodied manipulation and online shopping. These benchmarks quantify an agent's ability to learn initial preferences from scratch and subsequently adapt to persona shifts. Our theoretical analysis and empirical results show that integrating explicit memory with dual feedback channels is critical: PAHF learns substantially faster and consistently outperforms both no-memory and single-channel baselines, reducing initial personalization error and enabling rapid adaptation to preference shifts.

Apprentissage d’agents personnalisés à partir de retours humains

Learning Personalized Agents from Human Feedback

Résumé

Support