ELTEX: Um Framework para Geração de Dados Sintéticos Orientada a Domínio
ELTEX: A Framework for Domain-Driven Synthetic Data Generation
March 19, 2025
Autores: Arina Razmyslovich, Kseniia Murasheva, Sofia Sedlova, Julien Capitaine, Eugene Dmitriev
cs.AI
Resumo
Apresentamos o ELTEX (Efficient LLM Token Extraction), um framework orientado por domínio para a geração de dados sintéticos de treinamento de alta qualidade em domínios especializados. Embora os Modelos de Linguagem de Grande Escala (LLMs) tenham demonstrado capacidades gerais impressionantes, seu desempenho em domínios especializados, como cibersegurança, permanece limitado pela escassez de dados de treinamento específicos do domínio. O ELTEX aborda esse desafio ao integrar sistematicamente a extração explícita de indicadores de domínio com prompts dinâmicos para preservar o conhecimento crítico do domínio ao longo do processo de geração. Demonstramos a eficácia do ELTEX no contexto de detecção de ciberataques relacionados a blockchain, onde ajustamos o Gemma-2B usando várias combinações de dados reais e gerados pelo ELTEX. Nossos resultados mostram que o modelo aprimorado pelo ELTEX alcança um desempenho competitivo com o GPT-4 tanto em métricas de classificação padrão quanto em calibração de incerteza, enquanto requer significativamente menos recursos computacionais. Disponibilizamos um conjunto de dados sintéticos curados de textos de mídia social para detecção de ciberataques em blockchain. Nosso trabalho demonstra que a geração de dados sintéticos orientada por domínio pode efetivamente preencher a lacuna de desempenho entre modelos eficientes em recursos e arquiteturas maiores em domínios especializados.
English
We present ELTEX (Efficient LLM Token Extraction), a domain-driven framework
for generating high-quality synthetic training data in specialized domains.
While Large Language Models (LLMs) have shown impressive general capabilities,
their performance in specialized domains like cybersecurity remains limited by
the scarcity of domain-specific training data. ELTEX addresses this challenge
by systematically integrating explicit domain indicator extraction with dynamic
prompting to preserve critical domain knowledge throughout the generation
process. We demonstrate ELTEX's effectiveness in the context of
blockchain-related cyberattack detection, where we fine-tune Gemma-2B using
various combinations of real and ELTEX-generated data. Our results show that
the ELTEX-enhanced model achieves performance competitive with GPT-4 across
both standard classification metrics and uncertainty calibration, while
requiring significantly fewer computational resources. We release a curated
synthetic dataset of social media texts for cyberattack detection in
blockchain. Our work demonstrates that domain-driven synthetic data generation
can effectively bridge the performance gap between resource-efficient models
and larger architectures in specialized domains.Summary
AI-Generated Summary