SearchInstruct: 検索ベースの指示データセット作成によるドメイン適応の強化
SearchInstruct: Enhancing Domain Adaptation via Retrieval-Based Instruction Dataset Creation
September 12, 2025
著者: Iman Barati, Mostafa Amiri, Heshaam Faili
cs.AI
要旨
教師ありファインチューニング(SFT)は、大規模言語モデル(LLM)の訓練において不可欠であり、指示追従や文脈内学習といった重要な能力を大幅に向上させます。しかし、特定のドメインに特化した適切な訓練データセットの作成は、そのドメイン固有の制約やデータ不足のため、依然として困難です。本論文では、SFTのための高品質な指示データセットを構築するために特別に設計された革新的な手法、SearchInstructを提案します。我々のアプローチは、限られたドメイン固有の人間が生成した質問セットから始まり、大規模言語モデルを用いて体系的に拡張します。その後、ドメインに関連するリソースを動的に検索し、各拡張された質問に対して正確で文脈に適した回答を生成します。実験的評価により、SearchInstructがSFTデータセットの多様性と品質を向上させ、専門ドメインにおけるLLMの性能を測定可能なレベルで改善することが示されました。さらに、提案手法がデータセット生成を超えて、モデル編集といったタスクにも効果的に活用でき、既存モデルの効率的な更新を可能にすることも示しています。再現性とコミュニティでの採用を促進するため、完全な実装詳細、生成された指示-応答ペアの完全なセット、およびソースコードを公開Gitリポジトリで提供しています:[https://github.com/mostafaamiri/SearchInstruct](https://github.com/mostafaamiri/SearchInstruct)
English
Supervised Fine-Tuning (SFT) is essential for training large language models
(LLMs), significantly enhancing critical capabilities such as instruction
following and in-context learning. Nevertheless, creating suitable training
datasets tailored for specific domains remains challenging due to unique domain
constraints and data scarcity. In this paper, we propose SearchInstruct, an
innovative method explicitly designed to construct high quality instruction
datasets for SFT. Our approach begins with a limited set of domain specific,
human generated questions, which are systematically expanded using a large
language model. Subsequently, domain relevant resources are dynamically
retrieved to generate accurate and contextually appropriate answers for each
augmented question. Experimental evaluation demonstrates that SearchInstruct
enhances both the diversity and quality of SFT datasets, leading to measurable
improvements in LLM performance within specialized domains. Additionally, we
show that beyond dataset generation, the proposed method can also effectively
facilitate tasks such as model editing, enabling efficient updates to existing
models. To facilitate reproducibility and community adoption, we provide full
implementation details, the complete set of generated instruction response
pairs, and the source code in a publicly accessible Git repository:
[https://github.com/mostafaamiri/SearchInstruct](https://github.com/mostafaamiri/SearchInstruct)