Modellazione delle Preferenze Latenti per la Chiamata Personalizzata di Strumenti tra Sessioni
Latent Preference Modeling for Cross-Session Personalized Tool Calling
April 20, 2026
Autori: Yejin Yoon, Minseo Kim, Taeuk Kim
cs.AI
Abstract
Gli utenti spesso omettono dettagli essenziali nelle loro richieste agli agenti basati su LLM, generando input sottospecificati per l'uso degli strumenti. Ciò rappresenta una sfida fondamentale per gli agenti potenziati da strumenti, poiché l'esecuzione delle API richiede tipicamente argomenti completi, evidenziando la necessità di una chiamata agli strumenti personalizzata. Per studiare questo problema, introduciamo MPT, un benchmark che comprende 265 dialoghi multi-sessione che coprono tre sfide: Richiamo delle Preferenze, Induzione delle Preferenze e Trasferimento delle Preferenze. Proponiamo inoltre PRefine, un metodo potenziato dalla memoria a tempo di test che rappresenta le preferenze dell'utente come ipotesi in evoluzione. Attraverso un ciclo di generazione-verifica-affinamento, esso estrae vincoli riutilizzabili dalla cronologia e migliora l'accuratezza delle chiamate agli strumenti utilizzando solo l'1,24% dei token richiesti dal prompting con cronologia completa. Questi risultati indicano che una personalizzazione robusta nei sistemi agentici dipende da una memoria che catturi le ragioni dietro le scelte dell'utente, non solo le scelte stesse.
English
Users often omit essential details in their requests to LLM-based agents, resulting in under-specified inputs for tool use. This poses a fundamental challenge for tool-augmented agents, as API execution typically requires complete arguments, highlighting the need for personalized tool calling. To study this problem, we introduce MPT, a benchmark comprising 265 multi-session dialogues that cover three challenges: Preference Recall, Preference Induction, and Preference Transfer. We also propose PRefine, a test-time memory-augmented method that represents user preferences as evolving hypotheses. Through a generate--verify--refine loop, it extracts reusable constraints from history and improves tool-calling accuracy while using only 1.24% of the tokens required by full-history prompting. These results indicate that robust personalization in agentic systems depends on memory that captures the reasons behind user choices, not just the choices themselves.