TeleAntiFraud-28k: Аудио-текстовый набор данных для медленного анализа в целях выявления мошенничества в телекоммуникационной сфере
TeleAntiFraud-28k: A Audio-Text Slow-Thinking Dataset for Telecom Fraud Detection
March 31, 2025
Авторы: Zhiming Ma, Peidong Wang, Minhua Huang, Jingpeng Wang, Kai Wu, Xiangzhao Lv, Yachun Pang, Yin Yang, Wenjie Tang, Yuchen Kang
cs.AI
Аннотация
Обнаружение мошенничества в телекоммуникационной сфере сталкивается с серьезными трудностями из-за отсутствия высококачественных мультимодальных обучающих данных, которые интегрируют аудиосигналы с текстовым анализом, ориентированным на логическое рассуждение. Для устранения этого пробела мы представляем TeleAntiFraud-28k — первый открытый аудио-текстовый набор данных, основанный на принципе "медленного мышления" и специально разработанный для автоматизированного анализа телекоммуникационного мошенничества. Наш набор данных создан с использованием трех стратегий: (1) Генерация текстовых образцов с сохранением конфиденциальности на основе автоматически распознанных (ASR) записей телефонных разговоров (с анонимизированным оригинальным аудио), обеспечивающая реалистичность через регенерацию с использованием модели преобразования текста в речь (TTS); (2) Семантическое улучшение с помощью самообучающейся выборки на основе крупных языковых моделей (LLM) для расширения охвата сценариев; (3) Мультиагентный синтез, имитирующий новые тактики мошенничества через предопределенные сценарии общения и типы мошенничества. Созданный набор данных содержит 28 511 тщательно обработанных пар "речь-текст" с подробными аннотациями для анализа мошенничества. Набор данных разделен на три задачи: классификация сценариев, обнаружение мошенничества и классификация типов мошенничества. Кроме того, мы создали TeleAntiFraud-Bench — стандартизированный эталонный тест, включающий пропорционально отобранные примеры из набора данных, для систематической оценки производительности моделей в задачах обнаружения мошенничества. Мы также представляем оптимизированную для производства модель с контролируемой тонкой настройкой (SFT), обученную на гибридных реальных/синтетических данных, и открываем исходный код фреймворка обработки данных для расширения набора данных силами сообщества. Эта работа закладывает основу для мультимодальных исследований в области борьбы с мошенничеством, одновременно решая ключевые проблемы конфиденциальности данных и разнообразия сценариев. Проект будет доступен по адресу https://github.com/JimmyMa99/TeleAntiFraud.
English
The detection of telecom fraud faces significant challenges due to the lack
of high-quality multimodal training data that integrates audio signals with
reasoning-oriented textual analysis. To address this gap, we present
TeleAntiFraud-28k, the first open-source audio-text slow-thinking dataset
specifically designed for automated telecom fraud analysis. Our dataset is
constructed through three strategies: (1) Privacy-preserved text-truth sample
generation using automatically speech recognition (ASR)-transcribed call
recordings (with anonymized original audio), ensuring real-world consistency
through text-to-speech (TTS) model regeneration; (2) Semantic enhancement via
large language model (LLM)-based self-instruction sampling on authentic ASR
outputs to expand scenario coverage; (3) Multi-agent adversarial synthesis that
simulates emerging fraud tactics through predefined communication scenarios and
fraud typologies. The generated dataset contains 28,511 rigorously processed
speech-text pairs, complete with detailed annotations for fraud reasoning. The
dataset is divided into three tasks: scenario classification, fraud detection,
fraud type classification. Furthermore, we construct TeleAntiFraud-Bench, a
standardized evaluation benchmark comprising proportionally sampled instances
from the dataset, to facilitate systematic testing of model performance on
telecom fraud detection tasks. We also contribute a production-optimized
supervised fine-tuning (SFT) model trained on hybrid real/synthetic data, while
open-sourcing the data processing framework to enable community-driven dataset
expansion. This work establishes a foundational framework for multimodal
anti-fraud research while addressing critical challenges in data privacy and
scenario diversity. The project will be released at
https://github.com/JimmyMa99/TeleAntiFraud.Summary
AI-Generated Summary