Aprendizado de Agentes Personalizados a partir de Feedback Humano

Resumo

Os agentes de IA modernos são poderosos, mas frequentemente falham em se alinhar com as preferências idiossincráticas e em evolução de utilizadores individuais. As abordagens anteriores geralmente dependem de conjuntos de dados estáticos, seja treinando modelos implícitos de preferência com base no histórico de interações ou codificando perfis de utilizador em memória externa. No entanto, essas abordagens lutam com novos utilizadores e com preferências que mudam ao longo do tempo. Apresentamos os Agentes Personalizados a partir de *Feedback* Humano (PAHF), uma estrutura para personalização contínua na qual os agentes aprendem online a partir da interação em tempo real, usando memória explícita por utilizador. O PAHF opera através de um ciclo de três etapas: (1) busca de clarificação pré-ação para resolver ambiguidades, (2) fundamentação de ações em preferências recuperadas da memória, e (3) integração de *feedback* pós-ação para atualizar a memória quando as preferências se alteram. Para avaliar esta capacidade, desenvolvemos um protocolo de quatro fases e dois benchmarks em manipulação corporificada e compras online. Estes benchmarks quantificam a capacidade de um agente de aprender preferências iniciais do zero e, subsequentemente, adaptar-se a mudanças de persona. A nossa análise teórica e os resultados empíricos mostram que a integração de memória explícita com canais de *feedback* duplos é crítica: o PAHF aprende substancialmente mais rápido e supera consistentemente as linhas de base sem memória e de canal único, reduzindo o erro de personalização inicial e permitindo uma adaptação rápida a mudanças de preferência.

English

Modern AI agents are powerful but often fail to align with the idiosyncratic, evolving preferences of individual users. Prior approaches typically rely on static datasets, either training implicit preference models on interaction history or encoding user profiles in external memory. However, these approaches struggle with new users and with preferences that change over time. We introduce Personalized Agents from Human Feedback (PAHF), a framework for continual personalization in which agents learn online from live interaction using explicit per-user memory. PAHF operationalizes a three-step loop: (1) seeking pre-action clarification to resolve ambiguity, (2) grounding actions in preferences retrieved from memory, and (3) integrating post-action feedback to update memory when preferences drift. To evaluate this capability, we develop a four-phase protocol and two benchmarks in embodied manipulation and online shopping. These benchmarks quantify an agent's ability to learn initial preferences from scratch and subsequently adapt to persona shifts. Our theoretical analysis and empirical results show that integrating explicit memory with dual feedback channels is critical: PAHF learns substantially faster and consistently outperforms both no-memory and single-channel baselines, reducing initial personalization error and enabling rapid adaptation to preference shifts.

Aprendizado de Agentes Personalizados a partir de Feedback Humano

Learning Personalized Agents from Human Feedback

Resumo

Support