TeleAntiFraud-28k: Een Audio-Tekst Langzaam-Denken Dataset voor Telecomfraude Detectie
TeleAntiFraud-28k: A Audio-Text Slow-Thinking Dataset for Telecom Fraud Detection
March 31, 2025
Auteurs: Zhiming Ma, Peidong Wang, Minhua Huang, Jingpeng Wang, Kai Wu, Xiangzhao Lv, Yachun Pang, Yin Yang, Wenjie Tang, Yuchen Kang
cs.AI
Samenvatting
De detectie van telecomfraude wordt geconfronteerd met aanzienlijke uitdagingen vanwege het gebrek aan hoogwaardige multimodale trainingsgegevens die audiosignalen integreren met redeneringsgerichte tekstuele analyse. Om deze kloof te overbruggen, presenteren we TeleAntiFraud-28k, de eerste open-source audio-tekst slow-thinking dataset die specifiek is ontworpen voor geautomatiseerde telecomfraudeanalyse. Onze dataset is opgebouwd via drie strategieën: (1) Privacy-beschermde tekst-waarheid samplegeneratie met behulp van automatische spraakherkenning (ASR)-getranscribeerde gespreksopnames (met geanonimiseerde originele audio), waarbij real-world consistentie wordt gewaarborgd door tekst-naar-spraak (TTS) modelregeneratie; (2) Semantische verbetering via zelf-instructie sampling op basis van grote taalmodellen (LLM) op authentieke ASR-uitvoer om de scenario-dekking uit te breiden; (3) Multi-agent adversariële synthese die opkomende fraudetactieken simuleert via vooraf gedefinieerde communicatiescenario's en fraudetypologieën. De gegenereerde dataset bevat 28.511 rigoureus verwerkte spraak-tekst paren, compleet met gedetailleerde annotaties voor frauderedenering. De dataset is verdeeld in drie taken: scenario-classificatie, fraudedetectie en fraudetype-classificatie. Verder construeren we TeleAntiFraud-Bench, een gestandaardiseerd evaluatiebenchmark bestaande uit proportioneel bemonsterde instanties uit de dataset, om systematische tests van modelprestaties op telecomfraudedetectietaken te vergemakkelijken. We dragen ook een productie-geoptimaliseerd supervised fine-tuning (SFT) model bij, getraind op hybride reële/synthetische gegevens, terwijl we het gegevensverwerkingsframework open source maken om gemeenschapsgedreven datasetuitbreiding mogelijk te maken. Dit werk legt een fundamenteel kader voor multimodale antifraudeonderzoek en adresseert kritieke uitdagingen op het gebied van gegevensprivacy en scenario-diversiteit. Het project zal worden vrijgegeven op https://github.com/JimmyMa99/TeleAntiFraud.
English
The detection of telecom fraud faces significant challenges due to the lack
of high-quality multimodal training data that integrates audio signals with
reasoning-oriented textual analysis. To address this gap, we present
TeleAntiFraud-28k, the first open-source audio-text slow-thinking dataset
specifically designed for automated telecom fraud analysis. Our dataset is
constructed through three strategies: (1) Privacy-preserved text-truth sample
generation using automatically speech recognition (ASR)-transcribed call
recordings (with anonymized original audio), ensuring real-world consistency
through text-to-speech (TTS) model regeneration; (2) Semantic enhancement via
large language model (LLM)-based self-instruction sampling on authentic ASR
outputs to expand scenario coverage; (3) Multi-agent adversarial synthesis that
simulates emerging fraud tactics through predefined communication scenarios and
fraud typologies. The generated dataset contains 28,511 rigorously processed
speech-text pairs, complete with detailed annotations for fraud reasoning. The
dataset is divided into three tasks: scenario classification, fraud detection,
fraud type classification. Furthermore, we construct TeleAntiFraud-Bench, a
standardized evaluation benchmark comprising proportionally sampled instances
from the dataset, to facilitate systematic testing of model performance on
telecom fraud detection tasks. We also contribute a production-optimized
supervised fine-tuning (SFT) model trained on hybrid real/synthetic data, while
open-sourcing the data processing framework to enable community-driven dataset
expansion. This work establishes a foundational framework for multimodal
anti-fraud research while addressing critical challenges in data privacy and
scenario diversity. The project will be released at
https://github.com/JimmyMa99/TeleAntiFraud.Summary
AI-Generated Summary