ChatPaper.aiChatPaper

ELTEX: Een Framework voor Domeingerichte Synthetische Datageneratie

ELTEX: A Framework for Domain-Driven Synthetic Data Generation

March 19, 2025
Auteurs: Arina Razmyslovich, Kseniia Murasheva, Sofia Sedlova, Julien Capitaine, Eugene Dmitriev
cs.AI

Samenvatting

We presenteren ELTEX (Efficient LLM Token Extraction), een domeingericht raamwerk voor het genereren van hoogwaardige synthetische trainingsdata in gespecialiseerde domeinen. Hoewel Large Language Models (LLMs) indrukwekkende algemene capaciteiten hebben getoond, blijft hun prestaties in gespecialiseerde domeinen zoals cybersecurity beperkt door de schaarste aan domeinspecifieke trainingsdata. ELTEX lost deze uitdaging op door expliciete domeinindicator-extractie systematisch te integreren met dynamische prompting om kritieke domeinkennis gedurende het generatieproces te behouden. We demonstreren de effectiviteit van ELTEX in de context van blockchain-gerelateerde cyberaanvaldetectie, waarbij we Gemma-2B finetunen met verschillende combinaties van echte en door ELTEX gegenereerde data. Onze resultaten laten zien dat het ELTEX-verbeterde model prestaties behaalt die competitief zijn met GPT-4, zowel op standaard classificatiemetrics als op onzekerheidskalibratie, terwijl aanzienlijk minder rekenbronnen worden gebruikt. We publiceren een gecureerde synthetische dataset van social media-teksten voor cyberaanvaldetectie in blockchain. Ons werk toont aan dat domeingerichte synthetische datageneratie effectief de prestatiekloof kan overbruggen tussen resource-efficiënte modellen en grotere architecturen in gespecialiseerde domeinen.
English
We present ELTEX (Efficient LLM Token Extraction), a domain-driven framework for generating high-quality synthetic training data in specialized domains. While Large Language Models (LLMs) have shown impressive general capabilities, their performance in specialized domains like cybersecurity remains limited by the scarcity of domain-specific training data. ELTEX addresses this challenge by systematically integrating explicit domain indicator extraction with dynamic prompting to preserve critical domain knowledge throughout the generation process. We demonstrate ELTEX's effectiveness in the context of blockchain-related cyberattack detection, where we fine-tune Gemma-2B using various combinations of real and ELTEX-generated data. Our results show that the ELTEX-enhanced model achieves performance competitive with GPT-4 across both standard classification metrics and uncertainty calibration, while requiring significantly fewer computational resources. We release a curated synthetic dataset of social media texts for cyberattack detection in blockchain. Our work demonstrates that domain-driven synthetic data generation can effectively bridge the performance gap between resource-efficient models and larger architectures in specialized domains.

Summary

AI-Generated Summary

PDF62March 20, 2025