Doelafstemming in op LLM gebaseerde gebruikerssimulators voor conversationele AI
Goal Alignment in LLM-Based User Simulators for Conversational AI
July 27, 2025
Auteurs: Shuhaib Mehri, Xiaocheng Yang, Takyoung Kim, Gokhan Tur, Shikib Mehri, Dilek Hakkani-Tür
cs.AI
Samenvatting
Gebruikerssimulatoren zijn essentieel voor conversationele AI, omdat ze schaalbare ontwikkeling en evaluatie van agents mogelijk maken via gesimuleerde interacties. Hoewel huidige Large Language Models (LLM's) geavanceerde mogelijkheden voor gebruikerssimulatie bieden, laten we zien dat ze moeite hebben om consistent doelgericht gedrag te tonen in meerzijdige gesprekken—een kritische beperking die hun betrouwbaarheid in downstream toepassingen ondermijnt. We introduceren User Goal State Tracking (UGST), een nieuw framework dat de voortgang van gebruikersdoelen gedurende gesprekken bijhoudt. Door gebruik te maken van UGST presenteren we een driestappenmethodologie voor het ontwikkelen van gebruikerssimulatoren die autonoom doelvoortgang kunnen volgen en redeneren om doelgerichte reacties te genereren. Bovendien stellen we uitgebreide evaluatiemetrics vast voor het meten van doelgerichtheid in gebruikerssimulatoren, en demonstreren we dat onze aanpak aanzienlijke verbeteringen oplevert op twee benchmarks (MultiWOZ 2.4 en {\tau}-Bench). Onze bijdragen adresseren een kritische leemte in conversationele AI en vestigen UGST als een essentieel framework voor het ontwikkelen van doelgerichte gebruikerssimulatoren.
English
User simulators are essential to conversational AI, enabling scalable agent
development and evaluation through simulated interactions. While current Large
Language Models (LLMs) have advanced user simulation capabilities, we reveal
that they struggle to consistently demonstrate goal-oriented behavior across
multi-turn conversations--a critical limitation that compromises their
reliability in downstream applications. We introduce User Goal State Tracking
(UGST), a novel framework that tracks user goal progression throughout
conversations. Leveraging UGST, we present a three-stage methodology for
developing user simulators that can autonomously track goal progression and
reason to generate goal-aligned responses. Moreover, we establish comprehensive
evaluation metrics for measuring goal alignment in user simulators, and
demonstrate that our approach yields substantial improvements across two
benchmarks (MultiWOZ 2.4 and {\tau}-Bench). Our contributions address a
critical gap in conversational AI and establish UGST as an essential framework
for developing goal-aligned user simulators.