AI-세일즈맨: 신뢰할 수 있는 대규모 언어 모델 기반 텔레마케팅 시스템 구축
AI-Salesman: Towards Reliable Large Language Model Driven Telemarketing
November 15, 2025
저자: Qingyu Zhang, Chunlei Xin, Xuanang Chen, Yaojie Lu, Hongyu Lin, Xianpei Han, Le Sun, Qing Ye, Qianlong Xie, Xingxing Wang
cs.AI
초록
목표 주도형 설득 대화(텔레마케팅과 같은 응용 분야에서 나타남)는 정교한 다중 턴 계획과 엄격한 사실적 정확성을 요구하며, 이는 최첨단 대규모 언어 모델(LLM)에게도 여전히 큰 과제로 남아 있습니다. 기존 연구들은 과제 특화 데이터의 부족으로 인해 제한을 받는 경우가 많으며, LLM을 직접 적용할 경우 전략적 취약성과 사실 왜곡 문제가 발생합니다. 본 논문에서는 먼저 이 분야 최초의 실제 데이터 기반 대화 데이터셋인 TeleSalesCorpus를 구축하여 공개합니다. 그런 다음 이중 단계 아키텍처를 특징으로 하는 새로운 프레임워크인 AI-Salesman을 제안합니다. 학습 단계를 위해 잡음이 있는 대화로부터 강력한 판매 전략을 학습하는 베이지안 지도 강화 학습 알고리즘을 설계합니다. 추론 단계에서는 사전 구축된 스크립트 라이브러리를 활용하여 턴별 동적 전략 지침을 제공하는 동적 개요 지향 에이전트(DOGA)를 도입합니다. 또한, 핵심 판매 역량에 대한 세분화된 지표와 LLM-as-a-Judge 패러다임을 결합한 포괄적인 평가 프레임워크를 설계합니다. 실험 결과, 제안된 AI-Salesman이 자동 평가 지표와 포괄적인 인간 평가 모두에서 기준 모델들을 크게 능가하며, 복잡한 설득 시나리오에서의 효과성을 입증하였습니다.
English
Goal-driven persuasive dialogue, exemplified by applications like telemarketing, requires sophisticated multi-turn planning and strict factual faithfulness, which remains a significant challenge for even state-of-the-art Large Language Models (LLMs). A lack of task-specific data often limits previous works, and direct LLM application suffers from strategic brittleness and factual hallucination. In this paper, we first construct and release TeleSalesCorpus, the first real-world-grounded dialogue dataset for this domain. We then propose AI-Salesman, a novel framework featuring a dual-stage architecture. For the training stage, we design a Bayesian-supervised reinforcement learning algorithm that learns robust sales strategies from noisy dialogues. For the inference stage, we introduce the Dynamic Outline-Guided Agent (DOGA), which leverages a pre-built script library to provide dynamic, turn-by-turn strategic guidance. Moreover, we design a comprehensive evaluation framework that combines fine-grained metrics for key sales skills with the LLM-as-a-Judge paradigm. Experimental results demonstrate that our proposed AI-Salesman significantly outperforms baseline models in both automatic metrics and comprehensive human evaluations, showcasing its effectiveness in complex persuasive scenarios.