Целевое согласование в симуляторах пользователей на основе языковых моделей для диалогового ИИ
Goal Alignment in LLM-Based User Simulators for Conversational AI
July 27, 2025
Авторы: Shuhaib Mehri, Xiaocheng Yang, Takyoung Kim, Gokhan Tur, Shikib Mehri, Dilek Hakkani-Tür
cs.AI
Аннотация
Симуляторы пользователей играют ключевую роль в разработке диалоговых ИИ, обеспечивая масштабируемую разработку и оценку агентов через моделируемые взаимодействия. Хотя современные крупные языковые модели (LLM) значительно продвинули возможности симуляции пользователей, мы показываем, что они испытывают трудности с последовательным демонстрированием целеориентированного поведения в многоходовых диалогах — это критическое ограничение снижает их надежность в прикладных задачах. Мы представляем User Goal State Tracking (UGST), новую концепцию, которая отслеживает прогресс целей пользователя на протяжении диалогов. Используя UGST, мы предлагаем трехэтапную методологию для разработки симуляторов пользователей, способных автономно отслеживать прогресс целей и генерировать ответы, соответствующие этим целям. Кроме того, мы разрабатываем комплексные метрики для оценки соответствия целям в симуляторах пользователей и демонстрируем, что наш подход обеспечивает значительные улучшения на двух бенчмарках (MultiWOZ 2.4 и {\tau}-Bench). Наши результаты устраняют важный пробел в области диалоговых ИИ и утверждают UGST как ключевую концепцию для разработки целеориентированных симуляторов пользователей.
English
User simulators are essential to conversational AI, enabling scalable agent
development and evaluation through simulated interactions. While current Large
Language Models (LLMs) have advanced user simulation capabilities, we reveal
that they struggle to consistently demonstrate goal-oriented behavior across
multi-turn conversations--a critical limitation that compromises their
reliability in downstream applications. We introduce User Goal State Tracking
(UGST), a novel framework that tracks user goal progression throughout
conversations. Leveraging UGST, we present a three-stage methodology for
developing user simulators that can autonomously track goal progression and
reason to generate goal-aligned responses. Moreover, we establish comprehensive
evaluation metrics for measuring goal alignment in user simulators, and
demonstrate that our approach yields substantial improvements across two
benchmarks (MultiWOZ 2.4 and {\tau}-Bench). Our contributions address a
critical gap in conversational AI and establish UGST as an essential framework
for developing goal-aligned user simulators.