ChatPaper.aiChatPaper

사람의 피드백을 통해 개인화된 에이전트 학습하기

Learning Personalized Agents from Human Feedback

February 18, 2026
저자: Kaiqu Liang, Julia Kruk, Shengyi Qian, Xianjun Yang, Shengjie Bi, Yuanshun Yao, Shaoliang Nie, Mingyang Zhang, Lijuan Liu, Jaime Fernández Fisac, Shuyan Zhou, Saghar Hosseini
cs.AI

초록

현대 AI 에이전트는 강력하지만 개별 사용자의 독특하고 변화하는 선호도를 따라가지 못하는 경우가 많습니다. 기존 접근법은 일반적으로 상호작용 기록을 통해 암묵적 선호도 모델을 학습하거나 사용자 프로필을 외부 메모리에 인코딩하는 정적 데이터셋에 의존해 왔습니다. 그러나 이러한 접근법은 신규 사용자와 시간에 따라 변화하는 선호도에 대해 어려움을 겪습니다. 본 연구에서는 명시적인 사용자별 메모리를 사용하여 에이전트가 실시간 상호작용으로 온라인 학습을 수행하는 지속적 개인화 프레임워크인 PAHF(Personalized Agents from Human Feedback)를 소개합니다. PAHF는 세 단계 순환 과정을 운영화합니다: (1) 모호성 해결을 위한 행동 전 명료화 요청, (2) 메모리에서 검색된 선호도에 기반한 행동 근거화, (3) 선호도 변화 시 사후 행동 피드백을 통한 메모리 업데이트. 이 능력을 평가하기 위해 본 연구는 체화된 조작과 온라인 쇼핑 분야에서 4단계 프로토콜과 두 가지 벤치마크를 개발했습니다. 이러한 벤치마크는 에이전트가 초기 선호도를 처음부터 학습하고 이후 인격 변화에 적응하는 능력을 정량화합니다. 이론적 분석과 실험 결과는 명시적 메모리와 이중 피드백 채널의 통합이 중요함을 보여줍니다: PAHF는 학습 속도가 현저히 빠르며 메모리 없음 및 단일 채널 기준선을 지속적으로 능가하며, 초기 개인화 오류를 줄이고 선호도 변화에 대한 빠른 적응을 가능하게 합니다.
English
Modern AI agents are powerful but often fail to align with the idiosyncratic, evolving preferences of individual users. Prior approaches typically rely on static datasets, either training implicit preference models on interaction history or encoding user profiles in external memory. However, these approaches struggle with new users and with preferences that change over time. We introduce Personalized Agents from Human Feedback (PAHF), a framework for continual personalization in which agents learn online from live interaction using explicit per-user memory. PAHF operationalizes a three-step loop: (1) seeking pre-action clarification to resolve ambiguity, (2) grounding actions in preferences retrieved from memory, and (3) integrating post-action feedback to update memory when preferences drift. To evaluate this capability, we develop a four-phase protocol and two benchmarks in embodied manipulation and online shopping. These benchmarks quantify an agent's ability to learn initial preferences from scratch and subsequently adapt to persona shifts. Our theoretical analysis and empirical results show that integrating explicit memory with dual feedback channels is critical: PAHF learns substantially faster and consistently outperforms both no-memory and single-channel baselines, reducing initial personalization error and enabling rapid adaptation to preference shifts.
PDF93March 28, 2026