나를 먼저 알고 더 나은 나로: 암묵적 프로파일링을 통한 인간형 사용자 시뮬레이터 모델링
Know You First and Be You Better: Modeling Human-Like User Simulators via Implicit Profiles
February 26, 2025
저자: Kuang Wang, Xianfei Li, Shenghao Yang, Li Zhou, Feng Jiang, Haizhou Li
cs.AI
초록
사용자 시뮬레이터는 대화 시스템과의 인간 상호작용을 재현하는 데 핵심적인 역할을 하며, 특히 대규모 언어 모델(LLM)의 협력적 훈련과 자동 평가를 지원합니다. 그러나 기존 시뮬레이터는 주로 텍스트 발화에만 의존하여 성격, 말투, 목표와 같은 암묵적인 사용자 특성을 놓치는 경우가 많습니다. 반면, 페르소나 기반 방법은 유명 인물이나 원형에 기반한 미리 정의된 프로필에 의존하기 때문에 일반화가 어렵습니다. 이러한 문제를 해결하기 위해, 우리는 암묵적 프로필을 활용한 사용자 시뮬레이터(USP)를 제안합니다. 이 프레임워크는 인간-기계 대화에서 암묵적 사용자 프로필을 추론하고 이를 활용해 더 개인화되고 현실적인 대화를 생성합니다. 먼저, 우리는 포괄적인 프로필 스키마를 갖춘 LLM 기반 추출기를 개발합니다. 그런 다음, 조건부 지도 미세 조정과 사이클 일관성을 갖춘 강화 학습을 통해 시뮬레이션을 개선하여 발화 수준과 대화 수준 모두에서 최적화합니다. 마지막으로, 실제 사용자 프로필의 분포를 포착하기 위해 다양한 프로필 샘플러를 도입합니다. 실험 결과, USP는 진실성과 다양성 측면에서 강력한 베이스라인을 능가하면서 일관성에서도 비슷한 성능을 달성함을 보여줍니다. 또한, USP 기반의 동적 다중 턴 평가는 주요 벤치마크와 강력하게 일치하며, 실제 애플리케이션에서의 효과성을 입증합니다.
English
User simulators are crucial for replicating human interactions with dialogue
systems, supporting both collaborative training and automatic evaluation,
especially for large language models (LLMs). However, existing simulators often
rely solely on text utterances, missing implicit user traits such as
personality, speaking style, and goals. In contrast, persona-based methods lack
generalizability, as they depend on predefined profiles of famous individuals
or archetypes. To address these challenges, we propose User Simulator with
implicit Profiles (USP), a framework that infers implicit user profiles from
human-machine conversations and uses them to generate more personalized and
realistic dialogues. We first develop an LLM-driven extractor with a
comprehensive profile schema. Then, we refine the simulation through
conditional supervised fine-tuning and reinforcement learning with cycle
consistency, optimizing it at both the utterance and conversation levels.
Finally, we adopt a diverse profile sampler to capture the distribution of
real-world user profiles. Experimental results demonstrate that USP outperforms
strong baselines in terms of authenticity and diversity while achieving
comparable performance in consistency. Furthermore, dynamic multi-turn
evaluations based on USP strongly align with mainstream benchmarks,
demonstrating its effectiveness in real-world applications.Summary
AI-Generated Summary