Aprendizaje de Agentes Personalizados a partir de Retroalimentación Humana

Resumen

Los agentes de IA modernos son potentes pero a menudo no logran alinearse con las preferencias idiosincrásicas y en evolución de usuarios individuales. Los enfoques previos generalmente dependen de conjuntos de datos estáticos, ya sea entrenando modelos implícitos de preferencias sobre el historial de interacciones o codificando perfiles de usuario en memoria externa. Sin embargo, estos métodos tienen dificultades con usuarios nuevos y con preferencias que cambian con el tiempo. Presentamos Agentes Personalizados a partir de Retroalimentación Humana (APRH), un marco para la personalización continua en el que los agentes aprenden en línea a partir de la interacción en vivo utilizando una memoria explícita por usuario. APRH operacionaliza un bucle de tres pasos: (1) buscar aclaración previa a la acción para resolver ambigüedades, (2) fundamentar las acciones en preferencias recuperadas de la memoria, y (3) integrar la retroalimentación posterior a la acción para actualizar la memoria cuando las preferencias cambian. Para evaluar esta capacidad, desarrollamos un protocolo de cuatro fases y dos puntos de referencia en manipulación embodada y compras en línea. Estos puntos de referencia cuantifican la capacidad de un agente para aprender preferencias iniciales desde cero y adaptarse posteriormente a cambios de personalidad. Nuestro análisis teórico y los resultados empíricos muestran que integrar memoria explícita con canales duales de retroalimentación es crucial: APRH aprende sustancialmente más rápido y supera consistentemente tanto a las líneas base sin memoria como a las de canal único, reduciendo el error de personalización inicial y permitiendo una rápida adaptación a los cambios de preferencia.

English

Modern AI agents are powerful but often fail to align with the idiosyncratic, evolving preferences of individual users. Prior approaches typically rely on static datasets, either training implicit preference models on interaction history or encoding user profiles in external memory. However, these approaches struggle with new users and with preferences that change over time. We introduce Personalized Agents from Human Feedback (PAHF), a framework for continual personalization in which agents learn online from live interaction using explicit per-user memory. PAHF operationalizes a three-step loop: (1) seeking pre-action clarification to resolve ambiguity, (2) grounding actions in preferences retrieved from memory, and (3) integrating post-action feedback to update memory when preferences drift. To evaluate this capability, we develop a four-phase protocol and two benchmarks in embodied manipulation and online shopping. These benchmarks quantify an agent's ability to learn initial preferences from scratch and subsequently adapt to persona shifts. Our theoretical analysis and empirical results show that integrating explicit memory with dual feedback channels is critical: PAHF learns substantially faster and consistently outperforms both no-memory and single-channel baselines, reducing initial personalization error and enabling rapid adaptation to preference shifts.

Aprendizaje de Agentes Personalizados a partir de Retroalimentación Humana

Learning Personalized Agents from Human Feedback

Resumen

Support