교차 세션 개인 맞춤형 도구 호출을 위한 잠재 선호도 모델링
Latent Preference Modeling for Cross-Session Personalized Tool Calling
April 20, 2026
저자: Yejin Yoon, Minseo Kim, Taeuk Kim
cs.AI
초록
사용자가 LLM 기반 에이전트에 요청할 때 필수 세부사항을 생략하는 경우가 빈번하며, 이로 인해 도구 사용을 위한 입력이 불충분하게 지정되는 문제가 발생합니다. 이는 도구 활용 에이전트에게 근본적인 과제로 작용하는데, API 실행에는 일반적으로 완전한 인수가 필요하기 때문에 개인화된 도구 호출의 필요성이 부각됩니다. 본 연구는 이 문제를 탐구하기 위해 265개의 다중 세션 대화로 구성된 MPT 벤치마크를 소개합니다. MPT는 선호도 기억(Preference Recall), 선호도 추론(Preference Induction), 선호도 전이(Preference Transfer)라는 세 가지 과제를 다룹니다. 또한 사용자 선호도를 진화하는 가설로 표현하는 테스트 타임 메모리 강화 방법인 PRefine을 제안합니다. 이 방법은 생성-검증-정제(generate-verify-refine) 루프를 통해 기록에서 재사용 가능한 제약 조건을 추출하며, 전체 기록 프롬프팅에 필요한 토큰의 1.24%만 사용하면서 도구 호출 정확도를 향상시킵니다. 이러한 결과는 에이전트 시스템에서 강력한 개인화가 사용자의 선택 자체가 아닌 선택 배후의 이유를 포착하는 메모리에 의존함을 시사합니다.
English
Users often omit essential details in their requests to LLM-based agents, resulting in under-specified inputs for tool use. This poses a fundamental challenge for tool-augmented agents, as API execution typically requires complete arguments, highlighting the need for personalized tool calling. To study this problem, we introduce MPT, a benchmark comprising 265 multi-session dialogues that cover three challenges: Preference Recall, Preference Induction, and Preference Transfer. We also propose PRefine, a test-time memory-augmented method that represents user preferences as evolving hypotheses. Through a generate--verify--refine loop, it extracts reusable constraints from history and improves tool-calling accuracy while using only 1.24% of the tokens required by full-history prompting. These results indicate that robust personalization in agentic systems depends on memory that captures the reasons behind user choices, not just the choices themselves.