Zielausrichtung in LLM-basierten Benutzersimulatoren für konversationelle KI
Goal Alignment in LLM-Based User Simulators for Conversational AI
July 27, 2025
papers.authors: Shuhaib Mehri, Xiaocheng Yang, Takyoung Kim, Gokhan Tur, Shikib Mehri, Dilek Hakkani-Tür
cs.AI
papers.abstract
Benutzersimulatoren sind entscheidend für konversationelle KI, da sie skalierbare Agentenentwicklung und -evaluierung durch simulierte Interaktionen ermöglichen. Obwohl aktuelle Large Language Models (LLMs) fortschrittliche Fähigkeiten zur Benutzersimulation aufweisen, zeigen wir, dass sie Schwierigkeiten haben, zielorientiertes Verhalten über mehrschrittige Konversationen hinweg konsistent zu demonstrieren – eine kritische Einschränkung, die ihre Zuverlässigkeit in nachgelagerten Anwendungen beeinträchtigt. Wir stellen User Goal State Tracking (UGST) vor, ein neuartiges Framework, das den Fortschritt der Benutzerziele während der Konversationen verfolgt. Unter Nutzung von UGST präsentieren wir eine dreistufige Methodik zur Entwicklung von Benutzersimulatoren, die autonom den Zielfortschritt verfolgen und zielgerichtete Antworten generieren können. Darüber hinaus etablieren wir umfassende Evaluationsmetriken zur Messung der Zielausrichtung in Benutzersimulatoren und demonstrieren, dass unser Ansatz erhebliche Verbesserungen in zwei Benchmarks (MultiWOZ 2.4 und {\tau}-Bench) erzielt. Unsere Beiträge adressieren eine kritische Lücke in der konversationellen KI und etablieren UGST als ein wesentliches Framework für die Entwicklung zielgerichteter Benutzersimulatoren.
English
User simulators are essential to conversational AI, enabling scalable agent
development and evaluation through simulated interactions. While current Large
Language Models (LLMs) have advanced user simulation capabilities, we reveal
that they struggle to consistently demonstrate goal-oriented behavior across
multi-turn conversations--a critical limitation that compromises their
reliability in downstream applications. We introduce User Goal State Tracking
(UGST), a novel framework that tracks user goal progression throughout
conversations. Leveraging UGST, we present a three-stage methodology for
developing user simulators that can autonomously track goal progression and
reason to generate goal-aligned responses. Moreover, we establish comprehensive
evaluation metrics for measuring goal alignment in user simulators, and
demonstrate that our approach yields substantial improvements across two
benchmarks (MultiWOZ 2.4 and {\tau}-Bench). Our contributions address a
critical gap in conversational AI and establish UGST as an essential framework
for developing goal-aligned user simulators.