ChatPaper.aiChatPaper

ELTEX:ドメイン駆動型合成データ生成のためのフレームワーク

ELTEX: A Framework for Domain-Driven Synthetic Data Generation

March 19, 2025
著者: Arina Razmyslovich, Kseniia Murasheva, Sofia Sedlova, Julien Capitaine, Eugene Dmitriev
cs.AI

要旨

我々はELTEX(Efficient LLM Token Extraction)を提案する。これは専門領域における高品質な合成トレーニングデータを生成するためのドメイン駆動型フレームワークである。大規模言語モデル(LLM)は一般的な能力において印象的な成果を示しているが、サイバーセキュリティのような専門領域では、ドメイン固有のトレーニングデータの不足により性能が制限されている。ELTEXはこの課題に対処するため、明示的なドメイン指標抽出と動的プロンプティングを体系的に統合し、生成プロセス全体で重要なドメイン知識を保持する。我々はブロックチェーン関連のサイバー攻撃検出を文脈としてELTEXの有効性を実証し、Gemma-2Bを実データとELTEX生成データの様々な組み合わせでファインチューニングした。その結果、ELTEXを適用したモデルは、標準的な分類指標と不確実性キャリブレーションの両方においてGPT-4に匹敵する性能を達成しつつ、大幅に少ない計算リソースを必要とすることを示した。我々はブロックチェーンにおけるサイバー攻撃検出のための精選されたソーシャルメディアテキストの合成データセットを公開する。本研究は、ドメイン駆動型の合成データ生成が、専門領域においてリソース効率の良いモデルと大規模アーキテクチャの性能差を効果的に埋めることができることを実証している。
English
We present ELTEX (Efficient LLM Token Extraction), a domain-driven framework for generating high-quality synthetic training data in specialized domains. While Large Language Models (LLMs) have shown impressive general capabilities, their performance in specialized domains like cybersecurity remains limited by the scarcity of domain-specific training data. ELTEX addresses this challenge by systematically integrating explicit domain indicator extraction with dynamic prompting to preserve critical domain knowledge throughout the generation process. We demonstrate ELTEX's effectiveness in the context of blockchain-related cyberattack detection, where we fine-tune Gemma-2B using various combinations of real and ELTEX-generated data. Our results show that the ELTEX-enhanced model achieves performance competitive with GPT-4 across both standard classification metrics and uncertainty calibration, while requiring significantly fewer computational resources. We release a curated synthetic dataset of social media texts for cyberattack detection in blockchain. Our work demonstrates that domain-driven synthetic data generation can effectively bridge the performance gap between resource-efficient models and larger architectures in specialized domains.

Summary

AI-Generated Summary

PDF62March 20, 2025