人間のフィードバックからのパーソナライズされたエージェントの学習
Learning Personalized Agents from Human Feedback
February 18, 2026
著者: Kaiqu Liang, Julia Kruk, Shengyi Qian, Xianjun Yang, Shengjie Bi, Yuanshun Yao, Shaoliang Nie, Mingyang Zhang, Lijuan Liu, Jaime Fernández Fisac, Shuyan Zhou, Saghar Hosseini
cs.AI
要旨
現代のAIエージェントは強力であるが、個々のユーザーの特異的かつ変化する選好に適応できないことが多い。従来のアプローチは、典型的には静的なデータセットに依存し、インタラクション履歴から暗黙的な選好モデルを学習するか、外部メモリにユーザープロファイルを符号化していた。しかし、これらのアプローチは新規ユーザーや時間とともに変化する選好に対しては苦戦する。本論文では、ヒューマンフィードバックによる個人化エージェント(PAHF)を提案する。これは、エージェントが明示的なユーザー単位のメモリを用いて、オンラインで実際のインタラクションから学習する継続的個人化のフレームワークである。PAHFは3段階のループを機能化する:(1) 曖昧さを解決するための行動前明確化の要求、(2) メモリから検索された選好に基づく行動の接地、(3) 選好が変化した際のフィードバックをメモリに統合する行動後の更新。この能力を評価するため、4段階のプロトコルと、具身化操作とオンラインショッピングにおける2つのベンチマークを開発した。これらのベンチマークは、エージェントが初期選好をゼロから学習し、その後人物像の変化に適応する能力を定量化する。理論分析と実験結果は、明示的メモリと双方向フィードバック経路の統合が重要であることを示す:PAHFは、メモリなしまたは単一経路のベースライン手法と比較して、学習速度が大幅に速く、一貫して優れた性能を発揮し、初期個人化の誤差を削減し、選好の変化への迅速な適応を可能にする。
English
Modern AI agents are powerful but often fail to align with the idiosyncratic, evolving preferences of individual users. Prior approaches typically rely on static datasets, either training implicit preference models on interaction history or encoding user profiles in external memory. However, these approaches struggle with new users and with preferences that change over time. We introduce Personalized Agents from Human Feedback (PAHF), a framework for continual personalization in which agents learn online from live interaction using explicit per-user memory. PAHF operationalizes a three-step loop: (1) seeking pre-action clarification to resolve ambiguity, (2) grounding actions in preferences retrieved from memory, and (3) integrating post-action feedback to update memory when preferences drift. To evaluate this capability, we develop a four-phase protocol and two benchmarks in embodied manipulation and online shopping. These benchmarks quantify an agent's ability to learn initial preferences from scratch and subsequently adapt to persona shifts. Our theoretical analysis and empirical results show that integrating explicit memory with dual feedback channels is critical: PAHF learns substantially faster and consistently outperforms both no-memory and single-channel baselines, reducing initial personalization error and enabling rapid adaptation to preference shifts.