SearchInstruct: Verbetering van domeinadaptatie via het creëren van een op retrieval gebaseerde instructiedataset
SearchInstruct: Enhancing Domain Adaptation via Retrieval-Based Instruction Dataset Creation
September 12, 2025
Auteurs: Iman Barati, Mostafa Amiri, Heshaam Faili
cs.AI
Samenvatting
Supervised Fine-Tuning (SFT) is essentieel voor het trainen van grote taalmodel-
len (LLM's) en verbetert aanzienlijk cruciale vaardigheden zoals het volgen van
instructies en in-context leren. Desalniettemin blijft het creëren van geschikte
trainingsdatasets die zijn afgestemd op specifieke domeinen een uitdaging vanwege
unieke domeinbeperkingen en dataschaarste. In dit artikel stellen we SearchInstruct
voor, een innovatieve methode die specifiek is ontworpen om hoogwaardige instructie-
datasets voor SFT te construeren. Onze aanpak begint met een beperkte set van domein-
specifieke, door mensen gegenereerde vragen, die systematisch worden uitgebreid met
behulp van een groot taalmodel. Vervolgens worden domeinrelevante bronnen dynamisch
opgehaald om nauwkeurige en contextueel passende antwoorden te genereren voor elke
uitgebreide vraag. Experimentele evaluatie toont aan dat SearchInstruct zowel de
diversiteit als de kwaliteit van SFT-datasets verbetert, wat leidt tot meetbare
verbeteringen in de prestaties van LLM's binnen gespecialiseerde domeinen. Daarnaast
laten we zien dat de voorgestelde methode, naast datasetgeneratie, ook effectief
taken zoals modelbewerking kan faciliteren, waardoor efficiënte updates aan bestaande
modellen mogelijk worden. Om reproduceerbaarheid en adoptie door de gemeenschap te
bevorderen, bieden we volledige implementatiedetails, de volledige set gegenereerde
instructie-antwoordparen en de broncode aan in een publiek toegankelijke Git-repository:
[https://github.com/mostafaamiri/SearchInstruct](https://github.com/mostafaamiri/SearchInstruct)
English
Supervised Fine-Tuning (SFT) is essential for training large language models
(LLMs), significantly enhancing critical capabilities such as instruction
following and in-context learning. Nevertheless, creating suitable training
datasets tailored for specific domains remains challenging due to unique domain
constraints and data scarcity. In this paper, we propose SearchInstruct, an
innovative method explicitly designed to construct high quality instruction
datasets for SFT. Our approach begins with a limited set of domain specific,
human generated questions, which are systematically expanded using a large
language model. Subsequently, domain relevant resources are dynamically
retrieved to generate accurate and contextually appropriate answers for each
augmented question. Experimental evaluation demonstrates that SearchInstruct
enhances both the diversity and quality of SFT datasets, leading to measurable
improvements in LLM performance within specialized domains. Additionally, we
show that beyond dataset generation, the proposed method can also effectively
facilitate tasks such as model editing, enabling efficient updates to existing
models. To facilitate reproducibility and community adoption, we provide full
implementation details, the complete set of generated instruction response
pairs, and the source code in a publicly accessible Git repository:
[https://github.com/mostafaamiri/SearchInstruct](https://github.com/mostafaamiri/SearchInstruct)