ChatPaper.aiChatPaper

Latente Voorkeurenmodellering voor Gepersonaliseerde Toolaanroeping over Sessies Heen

Latent Preference Modeling for Cross-Session Personalized Tool Calling

April 20, 2026
Auteurs: Yejin Yoon, Minseo Kim, Taeuk Kim
cs.AI

Samenvatting

Gebruikers laten vaak essentiële details weg in hun verzoeken aan LLM-gestuurde agents, wat leidt tot onvolledig gespecificeerde invoer voor toolgebruik. Dit vormt een fundamentele uitdaging voor tool-augmented agents, aangezien API-uitvoering doorgaans volledige argumenten vereist, wat de noodzaak van gepersonaliseerde toolaanroeping benadrukt. Om dit probleem te bestuderen, introduceren we MPT, een benchmark bestaande uit 265 multi-sessie dialogen die drie uitdagingen omvatten: Preference Recall, Preference Induction en Preference Transfer. We presenteren ook PRefine, een test-time geheugen-augmented methode die gebruikersvoorkeuren representeert als evoluerende hypotheses. Door middel van een generate-verify-refine lus extraheert het herbruikbare beperkingen uit de geschiedenis en verbetert het de nauwkeurigheid van toolaanroepingen, terwijl het slechts 1,24% van de tokens gebruikt die nodig zijn bij full-history prompting. Deze resultaten tonen aan dat robuuste personalisatie in agent-systemen afhangt van geheugen dat de redenen achter gebruikerskeuzes vastlegt, niet alleen de keuzes zelf.
English
Users often omit essential details in their requests to LLM-based agents, resulting in under-specified inputs for tool use. This poses a fundamental challenge for tool-augmented agents, as API execution typically requires complete arguments, highlighting the need for personalized tool calling. To study this problem, we introduce MPT, a benchmark comprising 265 multi-session dialogues that cover three challenges: Preference Recall, Preference Induction, and Preference Transfer. We also propose PRefine, a test-time memory-augmented method that represents user preferences as evolving hypotheses. Through a generate--verify--refine loop, it extracts reusable constraints from history and improves tool-calling accuracy while using only 1.24% of the tokens required by full-history prompting. These results indicate that robust personalization in agentic systems depends on memory that captures the reasons behind user choices, not just the choices themselves.
PDF12April 22, 2026