ChatPaper.aiChatPaper

SearchInstruct: Verbetering van domeinadaptatie via het creëren van een op retrieval gebaseerde instructiedataset

SearchInstruct: Enhancing Domain Adaptation via Retrieval-Based Instruction Dataset Creation

September 12, 2025
Auteurs: Iman Barati, Mostafa Amiri, Heshaam Faili
cs.AI

Samenvatting

Supervised Fine-Tuning (SFT) is essentieel voor het trainen van grote taalmodel- len (LLM's) en verbetert aanzienlijk cruciale vaardigheden zoals het volgen van instructies en in-context leren. Desalniettemin blijft het creëren van geschikte trainingsdatasets die zijn afgestemd op specifieke domeinen een uitdaging vanwege unieke domeinbeperkingen en dataschaarste. In dit artikel stellen we SearchInstruct voor, een innovatieve methode die specifiek is ontworpen om hoogwaardige instructie- datasets voor SFT te construeren. Onze aanpak begint met een beperkte set van domein- specifieke, door mensen gegenereerde vragen, die systematisch worden uitgebreid met behulp van een groot taalmodel. Vervolgens worden domeinrelevante bronnen dynamisch opgehaald om nauwkeurige en contextueel passende antwoorden te genereren voor elke uitgebreide vraag. Experimentele evaluatie toont aan dat SearchInstruct zowel de diversiteit als de kwaliteit van SFT-datasets verbetert, wat leidt tot meetbare verbeteringen in de prestaties van LLM's binnen gespecialiseerde domeinen. Daarnaast laten we zien dat de voorgestelde methode, naast datasetgeneratie, ook effectief taken zoals modelbewerking kan faciliteren, waardoor efficiënte updates aan bestaande modellen mogelijk worden. Om reproduceerbaarheid en adoptie door de gemeenschap te bevorderen, bieden we volledige implementatiedetails, de volledige set gegenereerde instructie-antwoordparen en de broncode aan in een publiek toegankelijke Git-repository: [https://github.com/mostafaamiri/SearchInstruct](https://github.com/mostafaamiri/SearchInstruct)
English
Supervised Fine-Tuning (SFT) is essential for training large language models (LLMs), significantly enhancing critical capabilities such as instruction following and in-context learning. Nevertheless, creating suitable training datasets tailored for specific domains remains challenging due to unique domain constraints and data scarcity. In this paper, we propose SearchInstruct, an innovative method explicitly designed to construct high quality instruction datasets for SFT. Our approach begins with a limited set of domain specific, human generated questions, which are systematically expanded using a large language model. Subsequently, domain relevant resources are dynamically retrieved to generate accurate and contextually appropriate answers for each augmented question. Experimental evaluation demonstrates that SearchInstruct enhances both the diversity and quality of SFT datasets, leading to measurable improvements in LLM performance within specialized domains. Additionally, we show that beyond dataset generation, the proposed method can also effectively facilitate tasks such as model editing, enabling efficient updates to existing models. To facilitate reproducibility and community adoption, we provide full implementation details, the complete set of generated instruction response pairs, and the source code in a publicly accessible Git repository: [https://github.com/mostafaamiri/SearchInstruct](https://github.com/mostafaamiri/SearchInstruct)
PDF172September 16, 2025