Целевое согласование в симуляторах пользователей на основе языковых моделей для диалогового ИИ

Аннотация

Симуляторы пользователей играют ключевую роль в разработке диалоговых ИИ, обеспечивая масштабируемую разработку и оценку агентов через моделируемые взаимодействия. Хотя современные крупные языковые модели (LLM) значительно продвинули возможности симуляции пользователей, мы показываем, что они испытывают трудности с последовательным демонстрированием целеориентированного поведения в многоходовых диалогах — это критическое ограничение снижает их надежность в прикладных задачах. Мы представляем User Goal State Tracking (UGST), новую концепцию, которая отслеживает прогресс целей пользователя на протяжении диалогов. Используя UGST, мы предлагаем трехэтапную методологию для разработки симуляторов пользователей, способных автономно отслеживать прогресс целей и генерировать ответы, соответствующие этим целям. Кроме того, мы разрабатываем комплексные метрики для оценки соответствия целям в симуляторах пользователей и демонстрируем, что наш подход обеспечивает значительные улучшения на двух бенчмарках (MultiWOZ 2.4 и {\tau}-Bench). Наши результаты устраняют важный пробел в области диалоговых ИИ и утверждают UGST как ключевую концепцию для разработки целеориентированных симуляторов пользователей.

English

User simulators are essential to conversational AI, enabling scalable agent development and evaluation through simulated interactions. While current Large Language Models (LLMs) have advanced user simulation capabilities, we reveal that they struggle to consistently demonstrate goal-oriented behavior across multi-turn conversations--a critical limitation that compromises their reliability in downstream applications. We introduce User Goal State Tracking (UGST), a novel framework that tracks user goal progression throughout conversations. Leveraging UGST, we present a three-stage methodology for developing user simulators that can autonomously track goal progression and reason to generate goal-aligned responses. Moreover, we establish comprehensive evaluation metrics for measuring goal alignment in user simulators, and demonstrate that our approach yields substantial improvements across two benchmarks (MultiWOZ 2.4 and {\tau}-Bench). Our contributions address a critical gap in conversational AI and establish UGST as an essential framework for developing goal-aligned user simulators.

Целевое согласование в симуляторах пользователей на основе языковых моделей для диалогового ИИ

Goal Alignment in LLM-Based User Simulators for Conversational AI

Аннотация

Support