ELTEX: Фреймворк для генерации синтетических данных на основе предметной области

Аннотация

Мы представляем ELTEX (Efficient LLM Token Extraction) — предметно-ориентированную платформу для генерации высококачественных синтетических обучающих данных в специализированных областях. Хотя крупные языковые модели (LLM) демонстрируют впечатляющие общие возможности, их производительность в специализированных областях, таких как кибербезопасность, остается ограниченной из-за недостатка предметно-ориентированных обучающих данных. ELTEX решает эту проблему, систематически интегрируя извлечение явных предметных индикаторов с динамическим промптингом для сохранения критически важных знаний предметной области на протяжении всего процесса генерации. Мы демонстрируем эффективность ELTEX в контексте обнаружения кибератак, связанных с блокчейном, где мы дообучаем модель Gemma-2B, используя различные комбинации реальных и сгенерированных ELTEX данных. Наши результаты показывают, что модель, улучшенная с помощью ELTEX, достигает производительности, сопоставимой с GPT-4, как по стандартным метрикам классификации, так и по калибровке неопределенности, при этом требуя значительно меньше вычислительных ресурсов. Мы публикуем тщательно отобранный синтетический набор данных текстов из социальных сетей для обнаружения кибератак в блокчейне. Наша работа демонстрирует, что предметно-ориентированная генерация синтетических данных может эффективно сократить разрыв в производительности между ресурсоэффективными моделями и более крупными архитектурами в специализированных областях.

English

We present ELTEX (Efficient LLM Token Extraction), a domain-driven framework for generating high-quality synthetic training data in specialized domains. While Large Language Models (LLMs) have shown impressive general capabilities, their performance in specialized domains like cybersecurity remains limited by the scarcity of domain-specific training data. ELTEX addresses this challenge by systematically integrating explicit domain indicator extraction with dynamic prompting to preserve critical domain knowledge throughout the generation process. We demonstrate ELTEX's effectiveness in the context of blockchain-related cyberattack detection, where we fine-tune Gemma-2B using various combinations of real and ELTEX-generated data. Our results show that the ELTEX-enhanced model achieves performance competitive with GPT-4 across both standard classification metrics and uncertainty calibration, while requiring significantly fewer computational resources. We release a curated synthetic dataset of social media texts for cyberattack detection in blockchain. Our work demonstrates that domain-driven synthetic data generation can effectively bridge the performance gap between resource-efficient models and larger architectures in specialized domains.

ELTEX: Фреймворк для генерации синтетических данных на основе предметной области

ELTEX: A Framework for Domain-Driven Synthetic Data Generation

Аннотация

Support