TeleAntiFraud-28k: テレコム詐欺検出のための音声-テキスト低速思考データセット
TeleAntiFraud-28k: A Audio-Text Slow-Thinking Dataset for Telecom Fraud Detection
March 31, 2025
著者: Zhiming Ma, Peidong Wang, Minhua Huang, Jingpeng Wang, Kai Wu, Xiangzhao Lv, Yachun Pang, Yin Yang, Wenjie Tang, Yuchen Kang
cs.AI
要旨
テレコム詐欺の検出は、音声信号と推論指向のテキスト分析を統合した高品質なマルチモーダル訓練データの不足により、大きな課題に直面しています。このギャップを埋めるため、我々は自動化されたテレコム詐欺分析のために特別に設計された初のオープンソース音声-テキスト遅延思考データセット「TeleAntiFraud-28k」を提示します。本データセットは、以下の3つの戦略を通じて構築されました:(1)自動音声認識(ASR)によって文字起こしされた通話記録(匿名化されたオリジナル音声)を使用したプライバシー保護型テキスト-真実サンプル生成。テキスト音声合成(TTS)モデルによる再生成を通じて現実世界の一貫性を確保。(2)本物のASR出力に対する大規模言語モデル(LLM)ベースの自己指導サンプリングによる意味的拡張。シナリオカバレッジを拡大。(3)事前定義された通信シナリオと詐欺類型を通じて新興詐欺手法をシミュレートするマルチエージェント敵対的合成。生成されたデータセットは28,511の厳密に処理された音声-テキストペアを含み、詐欺推論のための詳細なアノテーションが付属しています。データセットは3つのタスクに分割されます:シナリオ分類、詐欺検出、詐欺類型分類。さらに、データセットから比例的にサンプリングされたインスタンスで構成される標準化された評価ベンチマーク「TeleAntiFraud-Bench」を構築し、テレコム詐欺検出タスクにおけるモデル性能の体系的なテストを容易にします。また、ハイブリッド実データ/合成データで訓練された生産最適化された教師あり微調整(SFT)モデルを提供し、コミュニティ主導のデータセット拡張を可能にするデータ処理フレームワークをオープンソース化します。本作業は、データプライバシーとシナリオ多様性における重要な課題に対処しながら、マルチモーダル詐欺防止研究の基盤となるフレームワークを確立します。本プロジェクトはhttps://github.com/JimmyMa99/TeleAntiFraudで公開されます。
English
The detection of telecom fraud faces significant challenges due to the lack
of high-quality multimodal training data that integrates audio signals with
reasoning-oriented textual analysis. To address this gap, we present
TeleAntiFraud-28k, the first open-source audio-text slow-thinking dataset
specifically designed for automated telecom fraud analysis. Our dataset is
constructed through three strategies: (1) Privacy-preserved text-truth sample
generation using automatically speech recognition (ASR)-transcribed call
recordings (with anonymized original audio), ensuring real-world consistency
through text-to-speech (TTS) model regeneration; (2) Semantic enhancement via
large language model (LLM)-based self-instruction sampling on authentic ASR
outputs to expand scenario coverage; (3) Multi-agent adversarial synthesis that
simulates emerging fraud tactics through predefined communication scenarios and
fraud typologies. The generated dataset contains 28,511 rigorously processed
speech-text pairs, complete with detailed annotations for fraud reasoning. The
dataset is divided into three tasks: scenario classification, fraud detection,
fraud type classification. Furthermore, we construct TeleAntiFraud-Bench, a
standardized evaluation benchmark comprising proportionally sampled instances
from the dataset, to facilitate systematic testing of model performance on
telecom fraud detection tasks. We also contribute a production-optimized
supervised fine-tuning (SFT) model trained on hybrid real/synthetic data, while
open-sourcing the data processing framework to enable community-driven dataset
expansion. This work establishes a foundational framework for multimodal
anti-fraud research while addressing critical challenges in data privacy and
scenario diversity. The project will be released at
https://github.com/JimmyMa99/TeleAntiFraud.Summary
AI-Generated Summary