ELTEX : Un Cadre pour la Génération de Données Synthétiques Orientée Domaine
ELTEX: A Framework for Domain-Driven Synthetic Data Generation
March 19, 2025
Auteurs: Arina Razmyslovich, Kseniia Murasheva, Sofia Sedlova, Julien Capitaine, Eugene Dmitriev
cs.AI
Résumé
Nous présentons ELTEX (Efficient LLM Token Extraction), un cadre orienté domaine pour générer des données d'entraînement synthétiques de haute qualité dans des domaines spécialisés. Bien que les modèles de langage de grande taille (LLMs) aient démontré des capacités générales impressionnantes, leurs performances dans des domaines spécialisés comme la cybersécurité restent limitées par la rareté des données d'entraînement spécifiques au domaine. ELTEX relève ce défi en intégrant systématiquement l'extraction d'indicateurs de domaine explicites avec un prompting dynamique pour préserver les connaissances critiques du domaine tout au long du processus de génération. Nous démontrons l'efficacité d'ELTEX dans le contexte de la détection de cyberattaques liées à la blockchain, où nous affinons Gemma-2B en utilisant diverses combinaisons de données réelles et générées par ELTEX. Nos résultats montrent que le modèle amélioré par ELTEX atteint des performances comparables à celles de GPT-4 à la fois en termes de métriques de classification standard et de calibration de l'incertitude, tout en nécessitant nettement moins de ressources computationnelles. Nous publions un ensemble de données synthétiques soigneusement sélectionné de textes de médias sociaux pour la détection de cyberattaques dans la blockchain. Notre travail démontre que la génération de données synthétiques orientée domaine peut combler efficacement l'écart de performance entre les modèles économes en ressources et les architectures plus volumineuses dans des domaines spécialisés.
English
We present ELTEX (Efficient LLM Token Extraction), a domain-driven framework
for generating high-quality synthetic training data in specialized domains.
While Large Language Models (LLMs) have shown impressive general capabilities,
their performance in specialized domains like cybersecurity remains limited by
the scarcity of domain-specific training data. ELTEX addresses this challenge
by systematically integrating explicit domain indicator extraction with dynamic
prompting to preserve critical domain knowledge throughout the generation
process. We demonstrate ELTEX's effectiveness in the context of
blockchain-related cyberattack detection, where we fine-tune Gemma-2B using
various combinations of real and ELTEX-generated data. Our results show that
the ELTEX-enhanced model achieves performance competitive with GPT-4 across
both standard classification metrics and uncertainty calibration, while
requiring significantly fewer computational resources. We release a curated
synthetic dataset of social media texts for cyberattack detection in
blockchain. Our work demonstrates that domain-driven synthetic data generation
can effectively bridge the performance gap between resource-efficient models
and larger architectures in specialized domains.Summary
AI-Generated Summary