TalkPlay-Tools: Recomendação Musical Conversacional com Chamada de Ferramentas de LLM
TalkPlay-Tools: Conversational Music Recommendation with LLM Tool Calling
October 2, 2025
Autores: Seungheon Doh, Keunwoo Choi, Juhan Nam
cs.AI
Resumo
Embora os recentes avanços em modelos de linguagem de grande escala (LLMs, na sigla em inglês) tenham permitido com sucesso a criação de sistemas de recomendação generativos com interações em linguagem natural, seu comportamento de recomendação é limitado, deixando outros componentes mais simples, porém cruciais, como filtragem de metadados ou atributos, subutilizados no sistema. Propomos um sistema de recomendação musical baseado em LLM com chamadas de ferramentas para servir como um pipeline unificado de recuperação e rerranqueamento. Nosso sistema posiciona um LLM como um sistema de recomendação de ponta a ponta que interpreta a intenção do usuário, planeja invocações de ferramentas e orquestra componentes especializados: filtros booleanos (SQL), recuperação esparsa (BM25), recuperação densa (similaridade de embeddings) e recuperação generativa (IDs semânticos). Por meio do planejamento de ferramentas, o sistema prevê quais tipos de ferramentas usar, a ordem de execução e os argumentos necessários para encontrar músicas que correspondam às preferências do usuário, suportando diversas modalidades enquanto integra de forma contínua múltiplos métodos de filtragem de banco de dados. Demonstramos que essa estrutura unificada de chamadas de ferramentas alcança desempenho competitivo em diversos cenários de recomendação ao empregar seletivamente métodos de recuperação apropriados com base nas consultas dos usuários, vislumbrando um novo paradigma para sistemas de recomendação musical conversacionais.
English
While the recent developments in large language models (LLMs) have
successfully enabled generative recommenders with natural language
interactions, their recommendation behavior is limited, leaving other simpler
yet crucial components such as metadata or attribute filtering underutilized in
the system. We propose an LLM-based music recommendation system with tool
calling to serve as a unified retrieval-reranking pipeline. Our system
positions an LLM as an end-to-end recommendation system that interprets user
intent, plans tool invocations, and orchestrates specialized components:
boolean filters (SQL), sparse retrieval (BM25), dense retrieval (embedding
similarity), and generative retrieval (semantic IDs). Through tool planning,
the system predicts which types of tools to use, their execution order, and the
arguments needed to find music matching user preferences, supporting diverse
modalities while seamlessly integrating multiple database filtering methods. We
demonstrate that this unified tool-calling framework achieves competitive
performance across diverse recommendation scenarios by selectively employing
appropriate retrieval methods based on user queries, envisioning a new paradigm
for conversational music recommendation systems.