TeleAntiFraud-28k : Un ensemble de données audio-texte à réflexion lente pour la détection des fraudes télécoms

Résumé

La détection des fraudes télécoms fait face à des défis majeurs en raison du manque de données d'entraînement multimodales de haute qualité intégrant des signaux audio avec une analyse textuelle orientée raisonnement. Pour combler cette lacune, nous présentons TeleAntiFraud-28k, le premier ensemble de données audio-texte open-source conçu spécifiquement pour l'analyse automatisée des fraudes télécoms. Notre ensemble de données est construit à travers trois stratégies : (1) Génération d'échantillons texte-vérité préservant la confidentialité en utilisant des enregistrements d'appels transcrits par reconnaissance automatique de la parole (ASR) (avec l'audio original anonymisé), assurant une cohérence réaliste grâce à la régénération par un modèle de synthèse vocale (TTS) ; (2) Amélioration sémantique via un échantillonnage auto-instructif basé sur un modèle de langage de grande envergure (LLM) appliqué à des sorties ASR authentiques pour étendre la couverture des scénarios ; (3) Synthèse antagoniste multi-agents simulant des tactiques de fraude émergentes à travers des scénarios de communication prédéfinis et des typologies de fraude. L'ensemble de données généré contient 28 511 paires parole-texte rigoureusement traitées, accompagnées d'annotations détaillées pour le raisonnement sur la fraude. L'ensemble de données est divisé en trois tâches : classification de scénario, détection de fraude, classification du type de fraude. De plus, nous construisons TeleAntiFraud-Bench, un benchmark d'évaluation standardisé comprenant des instances échantillonnées proportionnellement à partir de l'ensemble de données, pour faciliter le test systématique des performances des modèles sur les tâches de détection de fraude télécom. Nous contribuons également un modèle de fine-tuning supervisé (SFT) optimisé pour la production, entraîné sur des données hybrides réelles/synthétiques, tout en ouvrant le cadre de traitement des données pour permettre une expansion communautaire de l'ensemble de données. Ce travail établit un cadre fondamental pour la recherche multimodale anti-fraude tout en abordant les défis critiques de la confidentialité des données et de la diversité des scénarios. Le projet sera disponible à l'adresse https://github.com/JimmyMa99/TeleAntiFraud.

English

The detection of telecom fraud faces significant challenges due to the lack of high-quality multimodal training data that integrates audio signals with reasoning-oriented textual analysis. To address this gap, we present TeleAntiFraud-28k, the first open-source audio-text slow-thinking dataset specifically designed for automated telecom fraud analysis. Our dataset is constructed through three strategies: (1) Privacy-preserved text-truth sample generation using automatically speech recognition (ASR)-transcribed call recordings (with anonymized original audio), ensuring real-world consistency through text-to-speech (TTS) model regeneration; (2) Semantic enhancement via large language model (LLM)-based self-instruction sampling on authentic ASR outputs to expand scenario coverage; (3) Multi-agent adversarial synthesis that simulates emerging fraud tactics through predefined communication scenarios and fraud typologies. The generated dataset contains 28,511 rigorously processed speech-text pairs, complete with detailed annotations for fraud reasoning. The dataset is divided into three tasks: scenario classification, fraud detection, fraud type classification. Furthermore, we construct TeleAntiFraud-Bench, a standardized evaluation benchmark comprising proportionally sampled instances from the dataset, to facilitate systematic testing of model performance on telecom fraud detection tasks. We also contribute a production-optimized supervised fine-tuning (SFT) model trained on hybrid real/synthetic data, while open-sourcing the data processing framework to enable community-driven dataset expansion. This work establishes a foundational framework for multimodal anti-fraud research while addressing critical challenges in data privacy and scenario diversity. The project will be released at https://github.com/JimmyMa99/TeleAntiFraud.