ChatPaper.aiChatPaper

ELTEX: Un Framework per la Generazione di Dati Sintetici Basata su Dominio

ELTEX: A Framework for Domain-Driven Synthetic Data Generation

March 19, 2025
Autori: Arina Razmyslovich, Kseniia Murasheva, Sofia Sedlova, Julien Capitaine, Eugene Dmitriev
cs.AI

Abstract

Presentiamo ELTEX (Efficient LLM Token Extraction), un framework orientato al dominio per la generazione di dati di addestramento sintetici di alta qualità in ambiti specializzati. Sebbene i Large Language Model (LLM) abbiano dimostrato capacità generali impressionanti, le loro prestazioni in domini specializzati come la cybersecurity rimangono limitate dalla scarsità di dati di addestramento specifici per il dominio. ELTEX affronta questa sfida integrando sistematicamente l'estrazione esplicita di indicatori di dominio con il prompting dinamico, al fine di preservare le conoscenze critiche del dominio durante il processo di generazione. Dimostriamo l'efficacia di ELTEX nel contesto del rilevamento di attacchi informatici legati alla blockchain, dove abbiamo ottimizzato Gemma-2B utilizzando varie combinazioni di dati reali e generati da ELTEX. I nostri risultati mostrano che il modello potenziato da ELTEX raggiunge prestazioni competitive rispetto a GPT-4 sia nelle metriche di classificazione standard che nella calibrazione dell'incertezza, richiedendo al contempo risorse computazionali significativamente inferiori. Rilasciamo un dataset sintetico curato di testi provenienti dai social media per il rilevamento di attacchi informatici nella blockchain. Il nostro lavoro dimostra che la generazione di dati sintetici orientata al dominio può colmare efficacemente il divario prestazionale tra modelli efficienti in termini di risorse e architetture più grandi in domini specializzati.
English
We present ELTEX (Efficient LLM Token Extraction), a domain-driven framework for generating high-quality synthetic training data in specialized domains. While Large Language Models (LLMs) have shown impressive general capabilities, their performance in specialized domains like cybersecurity remains limited by the scarcity of domain-specific training data. ELTEX addresses this challenge by systematically integrating explicit domain indicator extraction with dynamic prompting to preserve critical domain knowledge throughout the generation process. We demonstrate ELTEX's effectiveness in the context of blockchain-related cyberattack detection, where we fine-tune Gemma-2B using various combinations of real and ELTEX-generated data. Our results show that the ELTEX-enhanced model achieves performance competitive with GPT-4 across both standard classification metrics and uncertainty calibration, while requiring significantly fewer computational resources. We release a curated synthetic dataset of social media texts for cyberattack detection in blockchain. Our work demonstrates that domain-driven synthetic data generation can effectively bridge the performance gap between resource-efficient models and larger architectures in specialized domains.
PDF62March 20, 2025