Lernen personalisierter Agenten aus menschlichem Feedback

Zusammenfassung

Moderne KI-Agenten sind leistungsfähig, scheitern jedoch oft daran, sich mit den idiosynkratischen, sich entwickelnden Präferenzen individueller Nutzer in Einklang zu bringen. Bisherige Ansätze stützen sich typischerweise auf statische Datensätze, indem sie entweder implizite Präferenzmodelle auf Interaktionshistorie trainieren oder Nutzerprofile in externem Speicher kodieren. Diese Ansätze haben jedoch Schwierigkeiten mit neuen Nutzern und sich über die Zeit verändernden Präferenzen. Wir stellen Personalisierte Agenten aus menschlichem Feedback (PAHF) vor, einen Rahmen für kontinuierliche Personalisierung, bei dem Agenten online aus laufender Interaktion unter Verwendung eines expliziten, nutzerspezifischen Speichers lernen. PAHF operationalisiert eine dreistufige Schleife: (1) Einholung von Klärung vor der Aktion zur Auflösung von Mehrdeutigkeiten, (2) Verankerung von Aktionen in Präferenzen, die aus dem Speicher abgerufen werden, und (3) Integration von Feedback nach der Aktion zur Aktualisierung des Speichers bei Präferenzverschiebungen. Um diese Fähigkeit zu bewerten, entwickeln wir ein vierphasiges Protokoll und zwei Benchmarks in den Bereichen verkörperte Manipulation und Online-Shopping. Diese Benchmarks quantifizieren die Fähigkeit eines Agenten, anfängliche Präferenzen von Grund auf zu lernen und sich anschließend an Persönlichkeitsverschiebungen anzupassen. Unsere theoretische Analyse und empirischen Ergebnisse zeigen, dass die Integration von explizitem Speicher mit dualen Feedback-Kanälen entscheidend ist: PAHF lernt wesentlich schneller und übertrifft durchgängig sowohl Baseline-Modelle ohne Speicher als auch mit nur einem Kanal, reduziert den anfänglichen Personalisierungsfehler und ermöglicht eine schnelle Anpassung an Präferenzverschiebungen.

English

Modern AI agents are powerful but often fail to align with the idiosyncratic, evolving preferences of individual users. Prior approaches typically rely on static datasets, either training implicit preference models on interaction history or encoding user profiles in external memory. However, these approaches struggle with new users and with preferences that change over time. We introduce Personalized Agents from Human Feedback (PAHF), a framework for continual personalization in which agents learn online from live interaction using explicit per-user memory. PAHF operationalizes a three-step loop: (1) seeking pre-action clarification to resolve ambiguity, (2) grounding actions in preferences retrieved from memory, and (3) integrating post-action feedback to update memory when preferences drift. To evaluate this capability, we develop a four-phase protocol and two benchmarks in embodied manipulation and online shopping. These benchmarks quantify an agent's ability to learn initial preferences from scratch and subsequently adapt to persona shifts. Our theoretical analysis and empirical results show that integrating explicit memory with dual feedback channels is critical: PAHF learns substantially faster and consistently outperforms both no-memory and single-channel baselines, reducing initial personalization error and enabling rapid adaptation to preference shifts.

Lernen personalisierter Agenten aus menschlichem Feedback

Learning Personalized Agents from Human Feedback

Zusammenfassung

Support