TeleAntiFraud-28k : Un ensemble de données audio-texte à réflexion lente pour la détection des fraudes télécoms
TeleAntiFraud-28k: A Audio-Text Slow-Thinking Dataset for Telecom Fraud Detection
March 31, 2025
Auteurs: Zhiming Ma, Peidong Wang, Minhua Huang, Jingpeng Wang, Kai Wu, Xiangzhao Lv, Yachun Pang, Yin Yang, Wenjie Tang, Yuchen Kang
cs.AI
Résumé
La détection des fraudes télécoms fait face à des défis majeurs en raison du manque de données d'entraînement multimodales de haute qualité intégrant des signaux audio avec une analyse textuelle orientée raisonnement. Pour combler cette lacune, nous présentons TeleAntiFraud-28k, le premier ensemble de données audio-texte open-source conçu spécifiquement pour l'analyse automatisée des fraudes télécoms. Notre ensemble de données est construit à travers trois stratégies : (1) Génération d'échantillons texte-vérité préservant la confidentialité en utilisant des enregistrements d'appels transcrits par reconnaissance automatique de la parole (ASR) (avec l'audio original anonymisé), assurant une cohérence réaliste grâce à la régénération par un modèle de synthèse vocale (TTS) ; (2) Amélioration sémantique via un échantillonnage auto-instructif basé sur un modèle de langage de grande envergure (LLM) appliqué à des sorties ASR authentiques pour étendre la couverture des scénarios ; (3) Synthèse antagoniste multi-agents simulant des tactiques de fraude émergentes à travers des scénarios de communication prédéfinis et des typologies de fraude. L'ensemble de données généré contient 28 511 paires parole-texte rigoureusement traitées, accompagnées d'annotations détaillées pour le raisonnement sur la fraude. L'ensemble de données est divisé en trois tâches : classification de scénario, détection de fraude, classification du type de fraude. De plus, nous construisons TeleAntiFraud-Bench, un benchmark d'évaluation standardisé comprenant des instances échantillonnées proportionnellement à partir de l'ensemble de données, pour faciliter le test systématique des performances des modèles sur les tâches de détection de fraude télécom. Nous contribuons également un modèle de fine-tuning supervisé (SFT) optimisé pour la production, entraîné sur des données hybrides réelles/synthétiques, tout en ouvrant le cadre de traitement des données pour permettre une expansion communautaire de l'ensemble de données. Ce travail établit un cadre fondamental pour la recherche multimodale anti-fraude tout en abordant les défis critiques de la confidentialité des données et de la diversité des scénarios. Le projet sera disponible à l'adresse https://github.com/JimmyMa99/TeleAntiFraud.
English
The detection of telecom fraud faces significant challenges due to the lack
of high-quality multimodal training data that integrates audio signals with
reasoning-oriented textual analysis. To address this gap, we present
TeleAntiFraud-28k, the first open-source audio-text slow-thinking dataset
specifically designed for automated telecom fraud analysis. Our dataset is
constructed through three strategies: (1) Privacy-preserved text-truth sample
generation using automatically speech recognition (ASR)-transcribed call
recordings (with anonymized original audio), ensuring real-world consistency
through text-to-speech (TTS) model regeneration; (2) Semantic enhancement via
large language model (LLM)-based self-instruction sampling on authentic ASR
outputs to expand scenario coverage; (3) Multi-agent adversarial synthesis that
simulates emerging fraud tactics through predefined communication scenarios and
fraud typologies. The generated dataset contains 28,511 rigorously processed
speech-text pairs, complete with detailed annotations for fraud reasoning. The
dataset is divided into three tasks: scenario classification, fraud detection,
fraud type classification. Furthermore, we construct TeleAntiFraud-Bench, a
standardized evaluation benchmark comprising proportionally sampled instances
from the dataset, to facilitate systematic testing of model performance on
telecom fraud detection tasks. We also contribute a production-optimized
supervised fine-tuning (SFT) model trained on hybrid real/synthetic data, while
open-sourcing the data processing framework to enable community-driven dataset
expansion. This work establishes a foundational framework for multimodal
anti-fraud research while addressing critical challenges in data privacy and
scenario diversity. The project will be released at
https://github.com/JimmyMa99/TeleAntiFraud.Summary
AI-Generated Summary