Modelagem de Preferências Latentes para Chamada de Ferramentas Personalizadas entre Sessões

Resumo

Os utilizadores frequentemente omitem detalhes essenciais nos seus pedidos a agentes baseados em LLM, resultando em entradas subespecificadas para uso de ferramentas. Isto representa um desafio fundamental para agentes aumentados com ferramentas, uma vez que a execução de APIs normalmente requer argumentos completos, destacando a necessidade de chamadas de ferramentas personalizadas. Para estudar este problema, introduzimos o MPT, um benchmark composto por 265 diálogos multissessão que abrangem três desafios: Recuperação de Preferências, Indução de Preferências e Transferência de Preferências. Também propomos o PRefine, um método aumentado por memória em tempo de teste que representa as preferências do utilizador como hipóteses em evolução. Através de um ciclo gerar-verificar-refinar, ele extrai restrições reutilizáveis do histórico e melhora a precisão das chamadas de ferramentas, usando apenas 1,24% dos tokens necessários para o prompt de histórico completo. Estes resultados indicam que a personalização robusta em sistemas agenticos depende de uma memória que capture as razões por trás das escolhas do utilizador, e não apenas as escolhas em si.

English

Users often omit essential details in their requests to LLM-based agents, resulting in under-specified inputs for tool use. This poses a fundamental challenge for tool-augmented agents, as API execution typically requires complete arguments, highlighting the need for personalized tool calling. To study this problem, we introduce MPT, a benchmark comprising 265 multi-session dialogues that cover three challenges: Preference Recall, Preference Induction, and Preference Transfer. We also propose PRefine, a test-time memory-augmented method that represents user preferences as evolving hypotheses. Through a generate--verify--refine loop, it extracts reusable constraints from history and improves tool-calling accuracy while using only 1.24% of the tokens required by full-history prompting. These results indicate that robust personalization in agentic systems depends on memory that captures the reasons behind user choices, not just the choices themselves.

Modelagem de Preferências Latentes para Chamada de Ferramentas Personalizadas entre Sessões

Latent Preference Modeling for Cross-Session Personalized Tool Calling

Resumo

Support