TalkPlay-Tools: Konversative Musikempfehlung mit LLM-Tool-Aufruf
TalkPlay-Tools: Conversational Music Recommendation with LLM Tool Calling
October 2, 2025
papers.authors: Seungheon Doh, Keunwoo Choi, Juhan Nam
cs.AI
papers.abstract
Während die jüngsten Entwicklungen bei großen Sprachmodellen (LLMs) erfolgreich generative Empfehlungssysteme mit natürlichen Sprachinteraktionen ermöglicht haben, ist ihr Empfehlungsverhalten begrenzt, wodurch andere einfachere, aber entscheidende Komponenten wie Metadaten- oder Attributfilterung im System untergenutzt bleiben. Wir schlagen ein LLM-basiertes Musikempfehlungssystem mit Werkzeugaufrufen vor, das als einheitliche Retrieval-Reranking-Pipeline dient. Unser System positioniert ein LLM als ein End-to-End-Empfehlungssystem, das die Benutzerabsicht interpretiert, Werkzeugaufrufe plant und spezialisierte Komponenten orchestriert: boolesche Filter (SQL), spärliches Retrieval (BM25), dichtes Retrieval (Embedding-Ähnlichkeit) und generatives Retrieval (semantische IDs). Durch Werkzeugplanung sagt das System voraus, welche Arten von Werkzeugen verwendet werden sollen, ihre Ausführungsreihenfolge und die benötigten Argumente, um Musik zu finden, die den Benutzerpräferenzen entspricht. Dabei unterstützt es diverse Modalitäten und integriert nahtlos mehrere Datenbankfilterungsmethoden. Wir zeigen, dass dieser einheitliche Werkzeugaufruf-Rahmen in verschiedenen Empfehlungsszenarien wettbewerbsfähige Leistungen erzielt, indem er selektiv geeignete Retrieval-Methoden basierend auf Benutzeranfragen einsetzt, und skizzieren damit ein neues Paradigma für konversationelle Musikempfehlungssysteme.
English
While the recent developments in large language models (LLMs) have
successfully enabled generative recommenders with natural language
interactions, their recommendation behavior is limited, leaving other simpler
yet crucial components such as metadata or attribute filtering underutilized in
the system. We propose an LLM-based music recommendation system with tool
calling to serve as a unified retrieval-reranking pipeline. Our system
positions an LLM as an end-to-end recommendation system that interprets user
intent, plans tool invocations, and orchestrates specialized components:
boolean filters (SQL), sparse retrieval (BM25), dense retrieval (embedding
similarity), and generative retrieval (semantic IDs). Through tool planning,
the system predicts which types of tools to use, their execution order, and the
arguments needed to find music matching user preferences, supporting diverse
modalities while seamlessly integrating multiple database filtering methods. We
demonstrate that this unified tool-calling framework achieves competitive
performance across diverse recommendation scenarios by selectively employing
appropriate retrieval methods based on user queries, envisioning a new paradigm
for conversational music recommendation systems.