Познай себя первым и стань лучше: моделирование человекообразных симуляторов пользователей через неявные профили
Know You First and Be You Better: Modeling Human-Like User Simulators via Implicit Profiles
February 26, 2025
Авторы: Kuang Wang, Xianfei Li, Shenghao Yang, Li Zhou, Feng Jiang, Haizhou Li
cs.AI
Аннотация
Симуляторы пользователей играют ключевую роль в воспроизведении взаимодействий человека с диалоговыми системами, поддерживая как совместное обучение, так и автоматическую оценку, особенно для крупных языковых моделей (LLM). Однако существующие симуляторы часто полагаются исключительно на текстовые высказывания, упуская из виду неявные характеристики пользователей, такие как личность, стиль общения и цели. В то же время методы, основанные на персонах, страдают от недостатка обобщаемости, так как зависят от заранее заданных профилей известных личностей или архетипов. Для решения этих проблем мы предлагаем симулятор пользователя с неявными профилями (USP) — фреймворк, который выводит неявные профили пользователей из диалогов между человеком и машиной и использует их для генерации более персонализированных и реалистичных диалогов. Сначала мы разрабатываем экстрактор на основе LLM с комплексной схемой профиля. Затем мы улучшаем симуляцию с помощью условного контролируемого тонкого обучения и обучения с подкреплением с цикличной согласованностью, оптимизируя её как на уровне отдельных высказываний, так и на уровне диалогов. Наконец, мы применяем разнообразный сэмплер профилей для учета распределения профилей пользователей в реальном мире. Экспериментальные результаты показывают, что USP превосходит сильные базовые модели по аутентичности и разнообразию, сохраняя при этом сопоставимую производительность в плане согласованности. Кроме того, динамические многотуровые оценки на основе USP тесно коррелируют с основными эталонными тестами, что подтверждает их эффективность в реальных приложениях.
English
User simulators are crucial for replicating human interactions with dialogue
systems, supporting both collaborative training and automatic evaluation,
especially for large language models (LLMs). However, existing simulators often
rely solely on text utterances, missing implicit user traits such as
personality, speaking style, and goals. In contrast, persona-based methods lack
generalizability, as they depend on predefined profiles of famous individuals
or archetypes. To address these challenges, we propose User Simulator with
implicit Profiles (USP), a framework that infers implicit user profiles from
human-machine conversations and uses them to generate more personalized and
realistic dialogues. We first develop an LLM-driven extractor with a
comprehensive profile schema. Then, we refine the simulation through
conditional supervised fine-tuning and reinforcement learning with cycle
consistency, optimizing it at both the utterance and conversation levels.
Finally, we adopt a diverse profile sampler to capture the distribution of
real-world user profiles. Experimental results demonstrate that USP outperforms
strong baselines in terms of authenticity and diversity while achieving
comparable performance in consistency. Furthermore, dynamic multi-turn
evaluations based on USP strongly align with mainstream benchmarks,
demonstrating its effectiveness in real-world applications.Summary
AI-Generated Summary