Alinhamento de Objetivos em Simuladores de Usuário Baseados em LLM para IA Conversacional

Resumo

Simuladores de usuário são essenciais para a IA conversacional, permitindo o desenvolvimento e avaliação escalável de agentes por meio de interações simuladas. Embora os atuais Modelos de Linguagem de Grande Escala (LLMs) tenham avançado nas capacidades de simulação de usuário, revelamos que eles lutam para demonstrar consistentemente comportamentos orientados a objetivos em conversas de múltiplos turnos—uma limitação crítica que compromete sua confiabilidade em aplicações subsequentes. Introduzimos o Rastreamento do Estado do Objetivo do Usuário (UGST), uma estrutura inovadora que monitora o progresso do objetivo do usuário ao longo das conversas. Utilizando o UGST, apresentamos uma metodologia de três estágios para desenvolver simuladores de usuário que podem rastrear autonomamente o progresso do objetivo e raciocinar para gerar respostas alinhadas ao objetivo. Além disso, estabelecemos métricas abrangentes de avaliação para medir o alinhamento de objetivos em simuladores de usuário e demonstramos que nossa abordagem resulta em melhorias substanciais em dois benchmarks (MultiWOZ 2.4 e {\tau}-Bench). Nossas contribuições abordam uma lacuna crítica na IA conversacional e estabelecem o UGST como uma estrutura essencial para o desenvolvimento de simuladores de usuário alinhados a objetivos.

English

User simulators are essential to conversational AI, enabling scalable agent development and evaluation through simulated interactions. While current Large Language Models (LLMs) have advanced user simulation capabilities, we reveal that they struggle to consistently demonstrate goal-oriented behavior across multi-turn conversations--a critical limitation that compromises their reliability in downstream applications. We introduce User Goal State Tracking (UGST), a novel framework that tracks user goal progression throughout conversations. Leveraging UGST, we present a three-stage methodology for developing user simulators that can autonomously track goal progression and reason to generate goal-aligned responses. Moreover, we establish comprehensive evaluation metrics for measuring goal alignment in user simulators, and demonstrate that our approach yields substantial improvements across two benchmarks (MultiWOZ 2.4 and {\tau}-Bench). Our contributions address a critical gap in conversational AI and establish UGST as an essential framework for developing goal-aligned user simulators.

Alinhamento de Objetivos em Simuladores de Usuário Baseados em LLM para IA Conversacional

Goal Alignment in LLM-Based User Simulators for Conversational AI

Resumo

Support