ChatPaper.aiChatPaper

Modelagem de Preferências Latentes para Chamada de Ferramentas Personalizadas entre Sessões

Latent Preference Modeling for Cross-Session Personalized Tool Calling

April 20, 2026
Autores: Yejin Yoon, Minseo Kim, Taeuk Kim
cs.AI

Resumo

Os utilizadores frequentemente omitem detalhes essenciais nos seus pedidos a agentes baseados em LLM, resultando em entradas subespecificadas para uso de ferramentas. Isto representa um desafio fundamental para agentes aumentados com ferramentas, uma vez que a execução de APIs normalmente requer argumentos completos, destacando a necessidade de chamadas de ferramentas personalizadas. Para estudar este problema, introduzimos o MPT, um benchmark composto por 265 diálogos multissessão que abrangem três desafios: Recuperação de Preferências, Indução de Preferências e Transferência de Preferências. Também propomos o PRefine, um método aumentado por memória em tempo de teste que representa as preferências do utilizador como hipóteses em evolução. Através de um ciclo gerar-verificar-refinar, ele extrai restrições reutilizáveis do histórico e melhora a precisão das chamadas de ferramentas, usando apenas 1,24% dos tokens necessários para o prompt de histórico completo. Estes resultados indicam que a personalização robusta em sistemas agenticos depende de uma memória que capture as razões por trás das escolhas do utilizador, e não apenas as escolhas em si.
English
Users often omit essential details in their requests to LLM-based agents, resulting in under-specified inputs for tool use. This poses a fundamental challenge for tool-augmented agents, as API execution typically requires complete arguments, highlighting the need for personalized tool calling. To study this problem, we introduce MPT, a benchmark comprising 265 multi-session dialogues that cover three challenges: Preference Recall, Preference Induction, and Preference Transfer. We also propose PRefine, a test-time memory-augmented method that represents user preferences as evolving hypotheses. Through a generate--verify--refine loop, it extracts reusable constraints from history and improves tool-calling accuracy while using only 1.24% of the tokens required by full-history prompting. These results indicate that robust personalization in agentic systems depends on memory that captures the reasons behind user choices, not just the choices themselves.
PDF12April 22, 2026