ChatPaper.aiChatPaper

TeleAntiFraud-28k: Um Conjunto de Dados de Pensamento Lento Áudio-Texto para Detecção de Fraudes em Telecomunicações

TeleAntiFraud-28k: A Audio-Text Slow-Thinking Dataset for Telecom Fraud Detection

March 31, 2025
Autores: Zhiming Ma, Peidong Wang, Minhua Huang, Jingpeng Wang, Kai Wu, Xiangzhao Lv, Yachun Pang, Yin Yang, Wenjie Tang, Yuchen Kang
cs.AI

Resumo

A detecção de fraudes em telecomunicações enfrenta desafios significativos devido à falta de dados de treinamento multimodal de alta qualidade que integrem sinais de áudio com análises textuais orientadas por raciocínio. Para abordar essa lacuna, apresentamos o TeleAntiFraud-28k, o primeiro conjunto de dados de pensamento lento áudio-texto de código aberto especificamente projetado para análise automatizada de fraudes em telecomunicações. Nosso conjunto de dados é construído por meio de três estratégias: (1) Geração de amostras de texto verdadeiro com preservação de privacidade usando gravações de chamadas transcritas por reconhecimento automático de fala (ASR) (com áudio original anonimizado), garantindo consistência do mundo real por meio de regeneração por modelos de texto-para-fala (TTS); (2) Aprimoramento semântico via amostragem de auto-instrução baseada em modelos de linguagem de grande escala (LLM) em saídas ASR autênticas para expandir a cobertura de cenários; (3) Síntese adversária multiagente que simula táticas emergentes de fraude por meio de cenários de comunicação predefinidos e tipologias de fraude. O conjunto de dados gerado contém 28.511 pares fala-texto rigorosamente processados, completos com anotações detalhadas para raciocínio de fraude. O conjunto de dados é dividido em três tarefas: classificação de cenário, detecção de fraude e classificação de tipo de fraude. Além disso, construímos o TeleAntiFraud-Bench, um benchmark de avaliação padronizado composto por instâncias amostradas proporcionalmente do conjunto de dados, para facilitar testes sistemáticos do desempenho do modelo em tarefas de detecção de fraude em telecomunicações. Também contribuímos com um modelo de ajuste fino supervisionado (SFT) otimizado para produção, treinado em dados híbridos reais/sintéticos, enquanto disponibilizamos o framework de processamento de dados em código aberto para permitir a expansão do conjunto de dados impulsionada pela comunidade. Este trabalho estabelece uma estrutura fundamental para pesquisa multimodal antifraude, ao mesmo tempo em que aborda desafios críticos em privacidade de dados e diversidade de cenários. O projeto será lançado em https://github.com/JimmyMa99/TeleAntiFraud.
English
The detection of telecom fraud faces significant challenges due to the lack of high-quality multimodal training data that integrates audio signals with reasoning-oriented textual analysis. To address this gap, we present TeleAntiFraud-28k, the first open-source audio-text slow-thinking dataset specifically designed for automated telecom fraud analysis. Our dataset is constructed through three strategies: (1) Privacy-preserved text-truth sample generation using automatically speech recognition (ASR)-transcribed call recordings (with anonymized original audio), ensuring real-world consistency through text-to-speech (TTS) model regeneration; (2) Semantic enhancement via large language model (LLM)-based self-instruction sampling on authentic ASR outputs to expand scenario coverage; (3) Multi-agent adversarial synthesis that simulates emerging fraud tactics through predefined communication scenarios and fraud typologies. The generated dataset contains 28,511 rigorously processed speech-text pairs, complete with detailed annotations for fraud reasoning. The dataset is divided into three tasks: scenario classification, fraud detection, fraud type classification. Furthermore, we construct TeleAntiFraud-Bench, a standardized evaluation benchmark comprising proportionally sampled instances from the dataset, to facilitate systematic testing of model performance on telecom fraud detection tasks. We also contribute a production-optimized supervised fine-tuning (SFT) model trained on hybrid real/synthetic data, while open-sourcing the data processing framework to enable community-driven dataset expansion. This work establishes a foundational framework for multimodal anti-fraud research while addressing critical challenges in data privacy and scenario diversity. The project will be released at https://github.com/JimmyMa99/TeleAntiFraud.

Summary

AI-Generated Summary

PDF122April 1, 2025