Обучение персонализированных агентов на основе обратной связи от человека

Аннотация

Современные ИИ-агенты обладают высокой мощностью, но часто не способны адаптироваться к идиосинкразическим и изменяющимся предпочтениям отдельных пользователей. Существующие подходы обычно опираются на статические наборы данных, либо обучая неявные модели предпочтений на истории взаимодействий, либо кодируя пользовательские профили во внешней памяти. Однако эти методы испытывают трудности с новыми пользователями и с предпочтениями, изменяющимися со временем. Мы представляем фреймворк Personalized Agents from Human Feedback (PAHF) для непрерывной персонализации, в котором агенты обучаются онлайн в процессе живого взаимодействия с использованием явной памяти для каждого пользователя. PAHF реализует трехэтапный цикл: (1) уточнение до действия для разрешения неоднозначности, (2) обоснование действий на основе предпочтений, извлеченных из памяти, и (3) интеграция обратной связи после действия для обновления памяти при изменении предпочтений. Для оценки этой возможности мы разработали четырехфазный протокол и два тестовых набора в областях манипуляций в физической среде и онлайн-покупок. Эти тестовые наборы позволяют количественно оценить способность агента изучать начальные предпочтения с нуля и впоследствии адаптироваться к изменениям персоналии. Наш теоретический анализ и эмпирические результаты показывают, что интеграция явной памяти с двойными каналами обратной связи является ключевой: PAHF обучается значительно быстрее и последовательно превосходит как базовые методы без памяти, так и методы с одним каналом, снижая ошибку начальной персонализации и обеспечивая быструю адаптацию к изменениям предпочтений.

English

Modern AI agents are powerful but often fail to align with the idiosyncratic, evolving preferences of individual users. Prior approaches typically rely on static datasets, either training implicit preference models on interaction history or encoding user profiles in external memory. However, these approaches struggle with new users and with preferences that change over time. We introduce Personalized Agents from Human Feedback (PAHF), a framework for continual personalization in which agents learn online from live interaction using explicit per-user memory. PAHF operationalizes a three-step loop: (1) seeking pre-action clarification to resolve ambiguity, (2) grounding actions in preferences retrieved from memory, and (3) integrating post-action feedback to update memory when preferences drift. To evaluate this capability, we develop a four-phase protocol and two benchmarks in embodied manipulation and online shopping. These benchmarks quantify an agent's ability to learn initial preferences from scratch and subsequently adapt to persona shifts. Our theoretical analysis and empirical results show that integrating explicit memory with dual feedback channels is critical: PAHF learns substantially faster and consistently outperforms both no-memory and single-channel baselines, reducing initial personalization error and enabling rapid adaptation to preference shifts.

Обучение персонализированных агентов на основе обратной связи от человека

Learning Personalized Agents from Human Feedback

Аннотация

Support