Latente Präferenzmodellierung für sitzungsübergreifendes personalisiertes Tool-Aufrufen

Zusammenfassung

Nutzer lassen häufig wesentliche Details in ihren Anfragen an LLM-basierte Agenten weg, was zu unzureichend spezifizierten Eingaben für die Werkzeugnutzung führt. Dies stellt eine grundlegende Herausforderung für werkzeuggestützte Agenten dar, da die API-Ausführung in der Regel vollständige Argumente erfordert, was die Notwendigkeit personalisierter Werkzeugaufrufe unterstreicht. Um dieses Problem zu untersuchen, stellen wir MPT vor, einen Benchmark mit 265 Multi-Session-Dialogen, die drei Herausforderungen abdecken: Präferenzabruf, Präferenzableitung und Präferenztransfer. Wir schlagen zudem PRefine vor, eine speichererweiterte Methode zur Testzeit, die Nutzerpräferenzen als sich entwickelnde Hypothesen repräsentiert. Durch eine Generate-Verify-Refine-Schleife extrahiert sie wiederverwendbare Constraints aus dem Verlauf und verbessert die Genauigkeit von Werkzeugaufrufen, wobei nur 1,24% der Tokens benötigt werden, die bei der Prompting mit vollständigem Verlauf erforderlich sind. Diese Ergebnisse zeigen, dass robuste Personalisierung in agentenbasierten Systemen von einem Gedächtnis abhängt, das die Gründe hinter Nutzerentscheidungen erfasst, nicht nur die Entscheidungen selbst.

English

Users often omit essential details in their requests to LLM-based agents, resulting in under-specified inputs for tool use. This poses a fundamental challenge for tool-augmented agents, as API execution typically requires complete arguments, highlighting the need for personalized tool calling. To study this problem, we introduce MPT, a benchmark comprising 265 multi-session dialogues that cover three challenges: Preference Recall, Preference Induction, and Preference Transfer. We also propose PRefine, a test-time memory-augmented method that represents user preferences as evolving hypotheses. Through a generate--verify--refine loop, it extracts reusable constraints from history and improves tool-calling accuracy while using only 1.24% of the tokens required by full-history prompting. These results indicate that robust personalization in agentic systems depends on memory that captures the reasons behind user choices, not just the choices themselves.

Latente Präferenzmodellierung für sitzungsübergreifendes personalisiertes Tool-Aufrufen

Latent Preference Modeling for Cross-Session Personalized Tool Calling

Zusammenfassung

Support