Conheça Você Primeiro e Seja Você Melhor: Modelando Simuladores de Usuários Humanizados por Meio de Perfis Implícitos

Resumo

Simuladores de usuários são cruciais para replicar interações humanas com sistemas de diálogo, apoiando tanto o treinamento colaborativo quanto a avaliação automática, especialmente para grandes modelos de linguagem (LLMs). No entanto, os simuladores existentes frequentemente dependem exclusivamente de enunciados de texto, ignorando características implícitas do usuário, como personalidade, estilo de fala e objetivos. Em contraste, métodos baseados em persona carecem de generalização, pois dependem de perfis predefinidos de indivíduos famosos ou arquétipos. Para enfrentar esses desafios, propomos o Simulador de Usuário com Perfis Implícitos (USP), uma estrutura que infere perfis implícitos de usuários a partir de conversas humano-máquina e os utiliza para gerar diálogos mais personalizados e realistas. Primeiro, desenvolvemos um extrator baseado em LLM com um esquema de perfil abrangente. Em seguida, refinamos a simulação por meio de ajuste fino supervisionado condicional e aprendizado por reforço com consistência cíclica, otimizando-a tanto no nível do enunciado quanto no nível da conversa. Por fim, adotamos um amostrador de perfis diversificado para capturar a distribuição de perfis de usuários do mundo real. Resultados experimentais demonstram que o USP supera fortes baselines em termos de autenticidade e diversidade, ao mesmo tempo em que alcança desempenho comparável em consistência. Além disso, avaliações dinâmicas de múltiplos turnos baseadas no USP estão fortemente alinhadas com benchmarks mainstream, demonstrando sua eficácia em aplicações do mundo real.

English

User simulators are crucial for replicating human interactions with dialogue systems, supporting both collaborative training and automatic evaluation, especially for large language models (LLMs). However, existing simulators often rely solely on text utterances, missing implicit user traits such as personality, speaking style, and goals. In contrast, persona-based methods lack generalizability, as they depend on predefined profiles of famous individuals or archetypes. To address these challenges, we propose User Simulator with implicit Profiles (USP), a framework that infers implicit user profiles from human-machine conversations and uses them to generate more personalized and realistic dialogues. We first develop an LLM-driven extractor with a comprehensive profile schema. Then, we refine the simulation through conditional supervised fine-tuning and reinforcement learning with cycle consistency, optimizing it at both the utterance and conversation levels. Finally, we adopt a diverse profile sampler to capture the distribution of real-world user profiles. Experimental results demonstrate that USP outperforms strong baselines in terms of authenticity and diversity while achieving comparable performance in consistency. Furthermore, dynamic multi-turn evaluations based on USP strongly align with mainstream benchmarks, demonstrating its effectiveness in real-world applications.

Conheça Você Primeiro e Seja Você Melhor: Modelando Simuladores de Usuários Humanizados por Meio de Perfis Implícitos

Know You First and Be You Better: Modeling Human-Like User Simulators via Implicit Profiles

Resumo

Summary

Support

Support