ChatPaper.aiChatPaper

Modélisation des préférences latentes pour l'appel d'outils personnalisé intersession

Latent Preference Modeling for Cross-Session Personalized Tool Calling

April 20, 2026
Auteurs: Yejin Yoon, Minseo Kim, Taeuk Kim
cs.AI

Résumé

Les utilisateurs omettent souvent des détails essentiels dans leurs requêtes aux agents basés sur LLM, ce qui génère des entrées sous-spécifiées pour l'utilisation des outils. Cela pose un défi fondamental pour les agents augmentés par outils, car l'exécution d'API nécessite généralement des arguments complets, soulignant le besoin d'un appel d'outil personnalisé. Pour étudier ce problème, nous présentons MPT, un benchmark comprenant 265 dialogues multi-sessions couvrant trois défis : le rappel des préférences, l'induction des préférences et le transfert des préférences. Nous proposons également PRefine, une méthode augmentée par mémoire au moment du test qui représente les préférences utilisateur comme des hypothèses évolutives. Via une boucle générer-vérifier-affiner, elle extrait des contraintes réutilisables de l'historique et améliore la précision des appels d'outils tout en n'utilisant que 1,24 % des jetons requis par l'invocation de l'historique complet. Ces résultats indiquent qu'une personnalisation robuste dans les systèmes agentiques dépend d'une mémoire qui capture les raisons derrière les choix des utilisateurs, et pas seulement les choix eux-mêmes.
English
Users often omit essential details in their requests to LLM-based agents, resulting in under-specified inputs for tool use. This poses a fundamental challenge for tool-augmented agents, as API execution typically requires complete arguments, highlighting the need for personalized tool calling. To study this problem, we introduce MPT, a benchmark comprising 265 multi-session dialogues that cover three challenges: Preference Recall, Preference Induction, and Preference Transfer. We also propose PRefine, a test-time memory-augmented method that represents user preferences as evolving hypotheses. Through a generate--verify--refine loop, it extracts reusable constraints from history and improves tool-calling accuracy while using only 1.24% of the tokens required by full-history prompting. These results indicate that robust personalization in agentic systems depends on memory that captures the reasons behind user choices, not just the choices themselves.
PDF12April 22, 2026