GPT-Calls: 大規模言語モデルによる合成会話生成を通じた通話セグメンテーションとタグ付けの強化
GPT-Calls: Enhancing Call Segmentation and Tagging by Generating Synthetic Conversations via Large Language Models
June 9, 2023
著者: Itzik Malkiel, Uri Alon, Yakir Yehuda, Shahar Keren, Oren Barkan, Royi Ronen, Noam Koenigstein
cs.AI
要旨
電話通話の文字起こしは、営業、カスタマーサービス、医療、法執行など、多様な分野において重要な価値を持っています。しかし、これらの録音された会話の分析は、特に長時間または複雑な対話を扱う場合、骨の折れる時間のかかるプロセスとなり得ます。本研究では、効率的かつ正確な通話セグメンテーションとトピック抽出のための新しい手法、GPT蒸留型通話セグメンテーション・タギング(GPT-Calls)を提案します。GPT-Callsは、オフラインフェーズとオンラインフェーズで構成されています。オフラインフェーズは、与えられたトピックリストに対して一度適用され、GPTモデルを使用して各トピックの合成文の分布を生成し、アンカーベクトルを抽出します。オンラインフェーズは、各通話に個別に適用され、文字起こしされた会話とオフラインフェーズで見つかったトピックアンカーとの類似性をスコアリングします。その後、類似性スコアに時間領域分析を適用して発話をセグメントにグループ化し、トピックでタグ付けします。提案されたパラダイムは、ラベル付きデータを必要としない、正確で効率的な通話セグメンテーションとトピック抽出の方法を提供し、さまざまなドメインに適用可能な汎用的なアプローチとなっています。私たちのアルゴリズムは、Dynamics 365 Sales Conversation Intelligenceの下で本番環境で動作しており、研究は、さまざまなDynamics 365 Salesテナントから収集された実際の営業会話に基づいています。
English
Transcriptions of phone calls are of significant value across diverse fields,
such as sales, customer service, healthcare, and law enforcement. Nevertheless,
the analysis of these recorded conversations can be an arduous and
time-intensive process, especially when dealing with extended or multifaceted
dialogues. In this work, we propose a novel method, GPT-distilled Calls
Segmentation and Tagging (GPT-Calls), for efficient and accurate call
segmentation and topic extraction. GPT-Calls is composed of offline and online
phases. The offline phase is applied once to a given list of topics and
involves generating a distribution of synthetic sentences for each topic using
a GPT model and extracting anchor vectors. The online phase is applied to every
call separately and scores the similarity between the transcripted conversation
and the topic anchors found in the offline phase. Then, time domain analysis is
applied to the similarity scores to group utterances into segments and tag them
with topics. The proposed paradigm provides an accurate and efficient method
for call segmentation and topic extraction that does not require labeled data,
thus making it a versatile approach applicable to various domains. Our
algorithm operates in production under Dynamics 365 Sales Conversation
Intelligence, and our research is based on real sales conversations gathered
from various Dynamics 365 Sales tenants.