TeleAntiFraud-28k: Ein Audio-Text-Langsam-Denken-Datensatz zur Erkennung von Telekommunikationsbetrug
TeleAntiFraud-28k: A Audio-Text Slow-Thinking Dataset for Telecom Fraud Detection
March 31, 2025
Autoren: Zhiming Ma, Peidong Wang, Minhua Huang, Jingpeng Wang, Kai Wu, Xiangzhao Lv, Yachun Pang, Yin Yang, Wenjie Tang, Yuchen Kang
cs.AI
Zusammenfassung
Die Erkennung von Telekommunikationsbetrug steht vor erheblichen Herausforderungen, insbesondere aufgrund des Mangels an hochwertigen multimodalen Trainingsdaten, die Audiosignale mit schlussfolgerungsorientierter Textanalyse integrieren. Um diese Lücke zu schließen, präsentieren wir TeleAntiFraud-28k, den ersten Open-Source-Audio-Text-Datensatz für langsam denkende Analysen, der speziell für die automatisierte Analyse von Telekommunikationsbetrug entwickelt wurde. Unser Datensatz wird durch drei Strategien erstellt: (1) Privatsphäre-schützende Text-Wahrheits-Proben-Generierung unter Verwendung von automatisch spracherkannten (ASR)-transkribierten Anrufaufzeichnungen (mit anonymisierten Original-Audios), die durch Text-zu-Sprache (TTS)-Modellregeneration reale Konsistenz gewährleisten; (2) Semantische Verbesserung durch selbstinstruierte Stichprobenbildung auf Basis von authentischen ASR-Ausgaben mittels großer Sprachmodelle (LLM), um die Szenarioabdeckung zu erweitern; (3) Multi-Agenten-adversarische Synthese, die neuartige Betrugstaktiken durch vordefinierte Kommunikationsszenarien und Betrugstypologien simuliert. Der generierte Datensatz enthält 28.511 sorgfältig verarbeitete Sprach-Text-Paare, ergänzt durch detaillierte Anmerkungen zur Betrugsbegründung. Der Datensatz ist in drei Aufgaben unterteilt: Szenarioklassifizierung, Betrugserkennung und Betrugstypklassifizierung. Darüber hinaus erstellen wir TeleAntiFraud-Bench, einen standardisierten Evaluierungsmaßstab, der proportional abgetastete Instanzen aus dem Datensatz enthält, um systematische Tests der Modellleistung bei der Erkennung von Telekommunikationsbetrug zu ermöglichen. Wir stellen auch ein produktionsoptimiertes überwachtes Feinabstimmungsmodell (SFT) zur Verfügung, das auf hybriden realen/synthetischen Daten trainiert wurde, während wir das Datenverarbeitungsframework Open-Source bereitstellen, um eine gemeinschaftsgetriebene Datensatzerweiterung zu ermöglichen. Diese Arbeit schafft ein grundlegendes Framework für multimodale Anti-Betrugs-Forschung und adressiert kritische Herausforderungen in Bezug auf Datenschutz und Szenariodiversität. Das Projekt wird unter https://github.com/JimmyMa99/TeleAntiFraud veröffentlicht.
English
The detection of telecom fraud faces significant challenges due to the lack
of high-quality multimodal training data that integrates audio signals with
reasoning-oriented textual analysis. To address this gap, we present
TeleAntiFraud-28k, the first open-source audio-text slow-thinking dataset
specifically designed for automated telecom fraud analysis. Our dataset is
constructed through three strategies: (1) Privacy-preserved text-truth sample
generation using automatically speech recognition (ASR)-transcribed call
recordings (with anonymized original audio), ensuring real-world consistency
through text-to-speech (TTS) model regeneration; (2) Semantic enhancement via
large language model (LLM)-based self-instruction sampling on authentic ASR
outputs to expand scenario coverage; (3) Multi-agent adversarial synthesis that
simulates emerging fraud tactics through predefined communication scenarios and
fraud typologies. The generated dataset contains 28,511 rigorously processed
speech-text pairs, complete with detailed annotations for fraud reasoning. The
dataset is divided into three tasks: scenario classification, fraud detection,
fraud type classification. Furthermore, we construct TeleAntiFraud-Bench, a
standardized evaluation benchmark comprising proportionally sampled instances
from the dataset, to facilitate systematic testing of model performance on
telecom fraud detection tasks. We also contribute a production-optimized
supervised fine-tuning (SFT) model trained on hybrid real/synthetic data, while
open-sourcing the data processing framework to enable community-driven dataset
expansion. This work establishes a foundational framework for multimodal
anti-fraud research while addressing critical challenges in data privacy and
scenario diversity. The project will be released at
https://github.com/JimmyMa99/TeleAntiFraud.Summary
AI-Generated Summary