TeleAntiFraud-28k: Un conjunto de datos de pensamiento lento audio-texto para la detección de fraude en telecomunicaciones
TeleAntiFraud-28k: A Audio-Text Slow-Thinking Dataset for Telecom Fraud Detection
March 31, 2025
Autores: Zhiming Ma, Peidong Wang, Minhua Huang, Jingpeng Wang, Kai Wu, Xiangzhao Lv, Yachun Pang, Yin Yang, Wenjie Tang, Yuchen Kang
cs.AI
Resumen
La detección de fraude en telecomunicaciones enfrenta desafíos significativos debido a la falta de datos de entrenamiento multimodal de alta calidad que integren señales de audio con análisis textual orientado al razonamiento. Para abordar esta brecha, presentamos TeleAntiFraud-28k, el primer conjunto de datos de audio-texto de pensamiento lento de código abierto específicamente diseñado para el análisis automatizado de fraude en telecomunicaciones. Nuestro conjunto de datos se construye mediante tres estrategias: (1) Generación de muestras de texto-verdad preservando la privacidad utilizando grabaciones de llamadas transcritas mediante reconocimiento automático de voz (ASR) (con audio original anonimizado), asegurando consistencia en el mundo real mediante la regeneración con modelos de texto a voz (TTS); (2) Mejora semántica mediante muestreo de autoinstrucción basado en modelos de lenguaje grandes (LLM) sobre salidas ASR auténticas para ampliar la cobertura de escenarios; (3) Síntesis adversarial multiagente que simula tácticas emergentes de fraude a través de escenarios de comunicación predefinidos y tipologías de fraude. El conjunto de datos generado contiene 28,511 pares de habla-texto rigurosamente procesados, completos con anotaciones detalladas para el razonamiento de fraude. El conjunto de datos se divide en tres tareas: clasificación de escenarios, detección de fraude y clasificación de tipos de fraude. Además, construimos TeleAntiFraud-Bench, un punto de referencia de evaluación estandarizado que comprende instancias muestreadas proporcionalmente del conjunto de datos, para facilitar pruebas sistemáticas del rendimiento del modelo en tareas de detección de fraude en telecomunicaciones. También contribuimos con un modelo de ajuste fino supervisado (SFT) optimizado para producción, entrenado con datos híbridos reales/sintéticos, mientras liberamos el marco de procesamiento de datos para permitir la expansión del conjunto de datos impulsada por la comunidad. Este trabajo establece un marco fundamental para la investigación multimodal contra el fraude, abordando desafíos críticos en la privacidad de los datos y la diversidad de escenarios. El proyecto se lanzará en https://github.com/JimmyMa99/TeleAntiFraud.
English
The detection of telecom fraud faces significant challenges due to the lack
of high-quality multimodal training data that integrates audio signals with
reasoning-oriented textual analysis. To address this gap, we present
TeleAntiFraud-28k, the first open-source audio-text slow-thinking dataset
specifically designed for automated telecom fraud analysis. Our dataset is
constructed through three strategies: (1) Privacy-preserved text-truth sample
generation using automatically speech recognition (ASR)-transcribed call
recordings (with anonymized original audio), ensuring real-world consistency
through text-to-speech (TTS) model regeneration; (2) Semantic enhancement via
large language model (LLM)-based self-instruction sampling on authentic ASR
outputs to expand scenario coverage; (3) Multi-agent adversarial synthesis that
simulates emerging fraud tactics through predefined communication scenarios and
fraud typologies. The generated dataset contains 28,511 rigorously processed
speech-text pairs, complete with detailed annotations for fraud reasoning. The
dataset is divided into three tasks: scenario classification, fraud detection,
fraud type classification. Furthermore, we construct TeleAntiFraud-Bench, a
standardized evaluation benchmark comprising proportionally sampled instances
from the dataset, to facilitate systematic testing of model performance on
telecom fraud detection tasks. We also contribute a production-optimized
supervised fine-tuning (SFT) model trained on hybrid real/synthetic data, while
open-sourcing the data processing framework to enable community-driven dataset
expansion. This work establishes a foundational framework for multimodal
anti-fraud research while addressing critical challenges in data privacy and
scenario diversity. The project will be released at
https://github.com/JimmyMa99/TeleAntiFraud.Summary
AI-Generated Summary