ChatPaper.aiChatPaper

Моделирование скрытых предпочтений для кросс-сессионного персонализированного вызова инструментов

Latent Preference Modeling for Cross-Session Personalized Tool Calling

April 20, 2026
Авторы: Yejin Yoon, Minseo Kim, Taeuk Kim
cs.AI

Аннотация

Пользователи часто опускают важные детали в запросах к агентам на основе больших языковых моделей (LLM), что приводит к неполным входным данным для использования инструментов. Это создает фундаментальную проблему для агентов, усиленных инструментами, поскольку выполнение API-запросов обычно требует полного набора аргументов, что подчеркивает необходимость персонализированного вызова инструментов. Для изучения данной проблемы мы представляем MPT — эталонный набор, содержащий 265 диалогов в нескольких сессиях, которые охватывают три задачи: восстановление предпочтений, выявление предпочтений и перенос предпочтений. Мы также предлагаем PRefine, метод с расширенной памятью на этапе тестирования, который представляет предпочтения пользователя как развивающиеся гипотезы. С помощью цикла "генерация–проверка–уточнение" метод извлекает повторно используемые ограничения из истории и повышает точность вызова инструментов, используя при этом всего 1.24% токенов от объема, требуемого при полном промптинге истории. Эти результаты показывают, что надежная персонализация в агентских системах зависит от памяти, которая фиксирует причины выбора пользователя, а не только сами выборы.
English
Users often omit essential details in their requests to LLM-based agents, resulting in under-specified inputs for tool use. This poses a fundamental challenge for tool-augmented agents, as API execution typically requires complete arguments, highlighting the need for personalized tool calling. To study this problem, we introduce MPT, a benchmark comprising 265 multi-session dialogues that cover three challenges: Preference Recall, Preference Induction, and Preference Transfer. We also propose PRefine, a test-time memory-augmented method that represents user preferences as evolving hypotheses. Through a generate--verify--refine loop, it extracts reusable constraints from history and improves tool-calling accuracy while using only 1.24% of the tokens required by full-history prompting. These results indicate that robust personalization in agentic systems depends on memory that captures the reasons behind user choices, not just the choices themselves.
PDF12April 22, 2026