TalkPlay-Tools: Conversationale Muziekaanbeveling met LLM Tool Calling
TalkPlay-Tools: Conversational Music Recommendation with LLM Tool Calling
October 2, 2025
Auteurs: Seungheon Doh, Keunwoo Choi, Juhan Nam
cs.AI
Samenvatting
Hoewel de recente ontwikkelingen in grote taalmodellen (LLM's) met succes generatieve aanbevelingssystemen met natuurlijke taalinteracties hebben mogelijk gemaakt, is hun aanbevelingsgedrag beperkt, waardoor andere eenvoudigere maar cruciale componenten zoals metadata- of attribuutfiltering onderbenut blijven in het systeem. Wij stellen een LLM-gebaseerd muziekaanbevelingssysteem met tool-aanroeping voor om te dienen als een geïntegreerd retrieval-reranking-pijplijn. Ons systeem positioneert een LLM als een end-to-end aanbevelingssysteem dat gebruikersintentie interpreteert, tool-aanroepingen plant en gespecialiseerde componenten orkestreert: booleaanse filters (SQL), sparse retrieval (BM25), dense retrieval (embedding-similariteit) en generatieve retrieval (semantische ID's). Door tool-planning voorspelt het systeem welke soorten tools moeten worden gebruikt, hun uitvoeringsvolgorde en de benodigde argumenten om muziek te vinden die aansluit bij gebruikersvoorkeuren, waarbij diverse modaliteiten worden ondersteund en meerdere databasefiltermethoden naadloos worden geïntegreerd. We demonstreren dat dit geïntegreerde tool-aanroepingskader competitieve prestaties bereikt in diverse aanbevelingsscenario's door selectief geschikte retrievalmethoden in te zetten op basis van gebruikersvragen, wat een nieuw paradigma voor conversatiegebaseerde muziekaanbevelingssystemen voorstelt.
English
While the recent developments in large language models (LLMs) have
successfully enabled generative recommenders with natural language
interactions, their recommendation behavior is limited, leaving other simpler
yet crucial components such as metadata or attribute filtering underutilized in
the system. We propose an LLM-based music recommendation system with tool
calling to serve as a unified retrieval-reranking pipeline. Our system
positions an LLM as an end-to-end recommendation system that interprets user
intent, plans tool invocations, and orchestrates specialized components:
boolean filters (SQL), sparse retrieval (BM25), dense retrieval (embedding
similarity), and generative retrieval (semantic IDs). Through tool planning,
the system predicts which types of tools to use, their execution order, and the
arguments needed to find music matching user preferences, supporting diverse
modalities while seamlessly integrating multiple database filtering methods. We
demonstrate that this unified tool-calling framework achieves competitive
performance across diverse recommendation scenarios by selectively employing
appropriate retrieval methods based on user queries, envisioning a new paradigm
for conversational music recommendation systems.