Modelado de Preferencias Latentes para la Llamada de Herramientas Personalizada entre Sesiones
Latent Preference Modeling for Cross-Session Personalized Tool Calling
April 20, 2026
Autores: Yejin Yoon, Minseo Kim, Taeuk Kim
cs.AI
Resumen
Los usuarios a menudo omiten detalles esenciales en sus solicitudes a agentes basados en LLM, lo que genera entradas subespecificadas para el uso de herramientas. Esto plantea un desafío fundamental para los agentes aumentados con herramientas, ya que la ejecución de API normalmente requiere argumentos completos, lo que subraya la necesidad de una llamada a herramientas personalizada. Para estudiar este problema, presentamos MPT, un benchmark que comprende 265 diálogos multi-sesión que cubren tres desafíos: Recuerdo de Preferencias, Inducción de Preferencias y Transferencia de Preferencias. También proponemos PRefine, un método aumentado con memoria en tiempo de prueba que representa las preferencias del usuario como hipótesis evolutivas. Mediante un bucle de generar-verificar-refinar, extrae restricciones reutilizables del historial y mejora la precisión de las llamadas a herramientas mientras utiliza solo el 1.24% de los tokens requeridos por el prompting de historial completo. Estos resultados indican que la personalización robusta en sistemas agenticos depende de una memoria que capture las razones detrás de las elecciones del usuario, no solo de las elecciones en sí mismas.
English
Users often omit essential details in their requests to LLM-based agents, resulting in under-specified inputs for tool use. This poses a fundamental challenge for tool-augmented agents, as API execution typically requires complete arguments, highlighting the need for personalized tool calling. To study this problem, we introduce MPT, a benchmark comprising 265 multi-session dialogues that cover three challenges: Preference Recall, Preference Induction, and Preference Transfer. We also propose PRefine, a test-time memory-augmented method that represents user preferences as evolving hypotheses. Through a generate--verify--refine loop, it extracts reusable constraints from history and improves tool-calling accuracy while using only 1.24% of the tokens required by full-history prompting. These results indicate that robust personalization in agentic systems depends on memory that captures the reasons behind user choices, not just the choices themselves.