TalkPlay-Tools: Рекомендация музыки в диалоговом режиме с использованием инструмента вызова языковых моделей (LLM)
TalkPlay-Tools: Conversational Music Recommendation with LLM Tool Calling
October 2, 2025
Авторы: Seungheon Doh, Keunwoo Choi, Juhan Nam
cs.AI
Аннотация
Хотя последние достижения в области больших языковых моделей (LLM) успешно обеспечили возможность создания генеративных рекомендательных систем с естественно-языковым взаимодействием, их поведение при рекомендациях остается ограниченным, оставляя другие, более простые, но важные компоненты, такие как фильтрация по метаданным или атрибутам, недостаточно используемыми в системе. Мы предлагаем музыкальную рекомендательную систему на основе LLM с вызовом инструментов, которая служит унифицированным конвейером поиска и повторного ранжирования. Наша система позиционирует LLM как сквозную рекомендательную систему, которая интерпретирует намерения пользователя, планирует вызовы инструментов и координирует специализированные компоненты: булевы фильтры (SQL), разреженный поиск (BM25), плотный поиск (сходство эмбеддингов) и генеративный поиск (семантические ID). Благодаря планированию инструментов система предсказывает, какие типы инструментов использовать, порядок их выполнения и аргументы, необходимые для поиска музыки, соответствующей предпочтениям пользователя, поддерживая разнообразные модальности и бесшовно интегрируя несколько методов фильтрации баз данных. Мы демонстрируем, что этот унифицированный фреймворк вызова инструментов достигает конкурентоспособной производительности в различных сценариях рекомендаций, избирательно применяя подходящие методы поиска на основе запросов пользователя, что открывает новую парадигму для разговорных музыкальных рекомендательных систем.
English
While the recent developments in large language models (LLMs) have
successfully enabled generative recommenders with natural language
interactions, their recommendation behavior is limited, leaving other simpler
yet crucial components such as metadata or attribute filtering underutilized in
the system. We propose an LLM-based music recommendation system with tool
calling to serve as a unified retrieval-reranking pipeline. Our system
positions an LLM as an end-to-end recommendation system that interprets user
intent, plans tool invocations, and orchestrates specialized components:
boolean filters (SQL), sparse retrieval (BM25), dense retrieval (embedding
similarity), and generative retrieval (semantic IDs). Through tool planning,
the system predicts which types of tools to use, their execution order, and the
arguments needed to find music matching user preferences, supporting diverse
modalities while seamlessly integrating multiple database filtering methods. We
demonstrate that this unified tool-calling framework achieves competitive
performance across diverse recommendation scenarios by selectively employing
appropriate retrieval methods based on user queries, envisioning a new paradigm
for conversational music recommendation systems.