ELTEX: Un Marco para la Generación de Datos Sintéticos Orientados al Dominio

Resumen

Presentamos ELTEX (Extracción Eficiente de Tokens para LLM), un marco orientado a dominios para generar datos sintéticos de entrenamiento de alta calidad en áreas especializadas. Si bien los Modelos de Lenguaje de Gran Escala (LLM) han demostrado capacidades generales impresionantes, su rendimiento en dominios especializados como la ciberseguridad sigue estando limitado por la escasez de datos de entrenamiento específicos del dominio. ELTEX aborda este desafío integrando sistemáticamente la extracción de indicadores de dominio explícitos con la generación dinámica de prompts para preservar el conocimiento crítico del dominio durante todo el proceso de generación. Demostramos la efectividad de ELTEX en el contexto de la detección de ciberataques relacionados con blockchain, donde ajustamos Gemma-2B utilizando diversas combinaciones de datos reales y generados por ELTEX. Nuestros resultados muestran que el modelo potenciado por ELTEX logra un rendimiento competitivo con GPT-4 tanto en métricas de clasificación estándar como en la calibración de incertidumbre, mientras requiere significativamente menos recursos computacionales. Publicamos un conjunto de datos sintéticos curados de textos de redes sociales para la detección de ciberataques en blockchain. Nuestro trabajo demuestra que la generación de datos sintéticos orientada a dominios puede cerrar eficazmente la brecha de rendimiento entre modelos eficientes en recursos y arquitecturas más grandes en dominios especializados.

English

We present ELTEX (Efficient LLM Token Extraction), a domain-driven framework for generating high-quality synthetic training data in specialized domains. While Large Language Models (LLMs) have shown impressive general capabilities, their performance in specialized domains like cybersecurity remains limited by the scarcity of domain-specific training data. ELTEX addresses this challenge by systematically integrating explicit domain indicator extraction with dynamic prompting to preserve critical domain knowledge throughout the generation process. We demonstrate ELTEX's effectiveness in the context of blockchain-related cyberattack detection, where we fine-tune Gemma-2B using various combinations of real and ELTEX-generated data. Our results show that the ELTEX-enhanced model achieves performance competitive with GPT-4 across both standard classification metrics and uncertainty calibration, while requiring significantly fewer computational resources. We release a curated synthetic dataset of social media texts for cyberattack detection in blockchain. Our work demonstrates that domain-driven synthetic data generation can effectively bridge the performance gap between resource-efficient models and larger architectures in specialized domains.

ELTEX: Un Marco para la Generación de Datos Sintéticos Orientados al Dominio

ELTEX: A Framework for Domain-Driven Synthetic Data Generation

Resumen

Support