ELTEX: Un Framework per la Generazione di Dati Sintetici Basata su Dominio
ELTEX: A Framework for Domain-Driven Synthetic Data Generation
March 19, 2025
Autori: Arina Razmyslovich, Kseniia Murasheva, Sofia Sedlova, Julien Capitaine, Eugene Dmitriev
cs.AI
Abstract
Presentiamo ELTEX (Efficient LLM Token Extraction), un framework orientato al dominio per la generazione di dati di addestramento sintetici di alta qualità in ambiti specializzati. Sebbene i Large Language Model (LLM) abbiano dimostrato capacità generali impressionanti, le loro prestazioni in domini specializzati come la cybersecurity rimangono limitate dalla scarsità di dati di addestramento specifici per il dominio. ELTEX affronta questa sfida integrando sistematicamente l'estrazione esplicita di indicatori di dominio con il prompting dinamico, al fine di preservare le conoscenze critiche del dominio durante il processo di generazione. Dimostriamo l'efficacia di ELTEX nel contesto del rilevamento di attacchi informatici legati alla blockchain, dove abbiamo ottimizzato Gemma-2B utilizzando varie combinazioni di dati reali e generati da ELTEX. I nostri risultati mostrano che il modello potenziato da ELTEX raggiunge prestazioni competitive rispetto a GPT-4 sia nelle metriche di classificazione standard che nella calibrazione dell'incertezza, richiedendo al contempo risorse computazionali significativamente inferiori. Rilasciamo un dataset sintetico curato di testi provenienti dai social media per il rilevamento di attacchi informatici nella blockchain. Il nostro lavoro dimostra che la generazione di dati sintetici orientata al dominio può colmare efficacemente il divario prestazionale tra modelli efficienti in termini di risorse e architetture più grandi in domini specializzati.
English
We present ELTEX (Efficient LLM Token Extraction), a domain-driven framework
for generating high-quality synthetic training data in specialized domains.
While Large Language Models (LLMs) have shown impressive general capabilities,
their performance in specialized domains like cybersecurity remains limited by
the scarcity of domain-specific training data. ELTEX addresses this challenge
by systematically integrating explicit domain indicator extraction with dynamic
prompting to preserve critical domain knowledge throughout the generation
process. We demonstrate ELTEX's effectiveness in the context of
blockchain-related cyberattack detection, where we fine-tune Gemma-2B using
various combinations of real and ELTEX-generated data. Our results show that
the ELTEX-enhanced model achieves performance competitive with GPT-4 across
both standard classification metrics and uncertainty calibration, while
requiring significantly fewer computational resources. We release a curated
synthetic dataset of social media texts for cyberattack detection in
blockchain. Our work demonstrates that domain-driven synthetic data generation
can effectively bridge the performance gap between resource-efficient models
and larger architectures in specialized domains.