ELTEX: Un Marco para la Generación de Datos Sintéticos Orientados al Dominio
ELTEX: A Framework for Domain-Driven Synthetic Data Generation
March 19, 2025
Autores: Arina Razmyslovich, Kseniia Murasheva, Sofia Sedlova, Julien Capitaine, Eugene Dmitriev
cs.AI
Resumen
Presentamos ELTEX (Extracción Eficiente de Tokens para LLM), un marco orientado a dominios para generar datos sintéticos de entrenamiento de alta calidad en áreas especializadas. Si bien los Modelos de Lenguaje de Gran Escala (LLM) han demostrado capacidades generales impresionantes, su rendimiento en dominios especializados como la ciberseguridad sigue estando limitado por la escasez de datos de entrenamiento específicos del dominio. ELTEX aborda este desafío integrando sistemáticamente la extracción de indicadores de dominio explícitos con la generación dinámica de prompts para preservar el conocimiento crítico del dominio durante todo el proceso de generación. Demostramos la efectividad de ELTEX en el contexto de la detección de ciberataques relacionados con blockchain, donde ajustamos Gemma-2B utilizando diversas combinaciones de datos reales y generados por ELTEX. Nuestros resultados muestran que el modelo potenciado por ELTEX logra un rendimiento competitivo con GPT-4 tanto en métricas de clasificación estándar como en la calibración de incertidumbre, mientras requiere significativamente menos recursos computacionales. Publicamos un conjunto de datos sintéticos curados de textos de redes sociales para la detección de ciberataques en blockchain. Nuestro trabajo demuestra que la generación de datos sintéticos orientada a dominios puede cerrar eficazmente la brecha de rendimiento entre modelos eficientes en recursos y arquitecturas más grandes en dominios especializados.
English
We present ELTEX (Efficient LLM Token Extraction), a domain-driven framework
for generating high-quality synthetic training data in specialized domains.
While Large Language Models (LLMs) have shown impressive general capabilities,
their performance in specialized domains like cybersecurity remains limited by
the scarcity of domain-specific training data. ELTEX addresses this challenge
by systematically integrating explicit domain indicator extraction with dynamic
prompting to preserve critical domain knowledge throughout the generation
process. We demonstrate ELTEX's effectiveness in the context of
blockchain-related cyberattack detection, where we fine-tune Gemma-2B using
various combinations of real and ELTEX-generated data. Our results show that
the ELTEX-enhanced model achieves performance competitive with GPT-4 across
both standard classification metrics and uncertainty calibration, while
requiring significantly fewer computational resources. We release a curated
synthetic dataset of social media texts for cyberattack detection in
blockchain. Our work demonstrates that domain-driven synthetic data generation
can effectively bridge the performance gap between resource-efficient models
and larger architectures in specialized domains.Summary
AI-Generated Summary