ELTEX: Een Framework voor Domeingerichte Synthetische Datageneratie
ELTEX: A Framework for Domain-Driven Synthetic Data Generation
March 19, 2025
Auteurs: Arina Razmyslovich, Kseniia Murasheva, Sofia Sedlova, Julien Capitaine, Eugene Dmitriev
cs.AI
Samenvatting
We presenteren ELTEX (Efficient LLM Token Extraction), een domeingericht raamwerk voor het genereren van hoogwaardige synthetische trainingsdata in gespecialiseerde domeinen. Hoewel Large Language Models (LLMs) indrukwekkende algemene capaciteiten hebben getoond, blijft hun prestaties in gespecialiseerde domeinen zoals cybersecurity beperkt door de schaarste aan domeinspecifieke trainingsdata. ELTEX lost deze uitdaging op door expliciete domeinindicator-extractie systematisch te integreren met dynamische prompting om kritieke domeinkennis gedurende het generatieproces te behouden. We demonstreren de effectiviteit van ELTEX in de context van blockchain-gerelateerde cyberaanvaldetectie, waarbij we Gemma-2B finetunen met verschillende combinaties van echte en door ELTEX gegenereerde data. Onze resultaten laten zien dat het ELTEX-verbeterde model prestaties behaalt die competitief zijn met GPT-4, zowel op standaard classificatiemetrics als op onzekerheidskalibratie, terwijl aanzienlijk minder rekenbronnen worden gebruikt. We publiceren een gecureerde synthetische dataset van social media-teksten voor cyberaanvaldetectie in blockchain. Ons werk toont aan dat domeingerichte synthetische datageneratie effectief de prestatiekloof kan overbruggen tussen resource-efficiënte modellen en grotere architecturen in gespecialiseerde domeinen.
English
We present ELTEX (Efficient LLM Token Extraction), a domain-driven framework
for generating high-quality synthetic training data in specialized domains.
While Large Language Models (LLMs) have shown impressive general capabilities,
their performance in specialized domains like cybersecurity remains limited by
the scarcity of domain-specific training data. ELTEX addresses this challenge
by systematically integrating explicit domain indicator extraction with dynamic
prompting to preserve critical domain knowledge throughout the generation
process. We demonstrate ELTEX's effectiveness in the context of
blockchain-related cyberattack detection, where we fine-tune Gemma-2B using
various combinations of real and ELTEX-generated data. Our results show that
the ELTEX-enhanced model achieves performance competitive with GPT-4 across
both standard classification metrics and uncertainty calibration, while
requiring significantly fewer computational resources. We release a curated
synthetic dataset of social media texts for cyberattack detection in
blockchain. Our work demonstrates that domain-driven synthetic data generation
can effectively bridge the performance gap between resource-efficient models
and larger architectures in specialized domains.Summary
AI-Generated Summary