ELTEX: Фреймворк для генерации синтетических данных на основе предметной области
ELTEX: A Framework for Domain-Driven Synthetic Data Generation
March 19, 2025
Авторы: Arina Razmyslovich, Kseniia Murasheva, Sofia Sedlova, Julien Capitaine, Eugene Dmitriev
cs.AI
Аннотация
Мы представляем ELTEX (Efficient LLM Token Extraction) — предметно-ориентированную платформу для генерации высококачественных синтетических обучающих данных в специализированных областях. Хотя крупные языковые модели (LLM) демонстрируют впечатляющие общие возможности, их производительность в специализированных областях, таких как кибербезопасность, остается ограниченной из-за недостатка предметно-ориентированных обучающих данных. ELTEX решает эту проблему, систематически интегрируя извлечение явных предметных индикаторов с динамическим промптингом для сохранения критически важных знаний предметной области на протяжении всего процесса генерации. Мы демонстрируем эффективность ELTEX в контексте обнаружения кибератак, связанных с блокчейном, где мы дообучаем модель Gemma-2B, используя различные комбинации реальных и сгенерированных ELTEX данных. Наши результаты показывают, что модель, улучшенная с помощью ELTEX, достигает производительности, сопоставимой с GPT-4, как по стандартным метрикам классификации, так и по калибровке неопределенности, при этом требуя значительно меньше вычислительных ресурсов. Мы публикуем тщательно отобранный синтетический набор данных текстов из социальных сетей для обнаружения кибератак в блокчейне. Наша работа демонстрирует, что предметно-ориентированная генерация синтетических данных может эффективно сократить разрыв в производительности между ресурсоэффективными моделями и более крупными архитектурами в специализированных областях.
English
We present ELTEX (Efficient LLM Token Extraction), a domain-driven framework
for generating high-quality synthetic training data in specialized domains.
While Large Language Models (LLMs) have shown impressive general capabilities,
their performance in specialized domains like cybersecurity remains limited by
the scarcity of domain-specific training data. ELTEX addresses this challenge
by systematically integrating explicit domain indicator extraction with dynamic
prompting to preserve critical domain knowledge throughout the generation
process. We demonstrate ELTEX's effectiveness in the context of
blockchain-related cyberattack detection, where we fine-tune Gemma-2B using
various combinations of real and ELTEX-generated data. Our results show that
the ELTEX-enhanced model achieves performance competitive with GPT-4 across
both standard classification metrics and uncertainty calibration, while
requiring significantly fewer computational resources. We release a curated
synthetic dataset of social media texts for cyberattack detection in
blockchain. Our work demonstrates that domain-driven synthetic data generation
can effectively bridge the performance gap between resource-efficient models
and larger architectures in specialized domains.Summary
AI-Generated Summary