SearchInstruct: Verbesserung der Domänenanpassung durch retrieverbasierte Erstellung von Instruktionsdatensätzen
SearchInstruct: Enhancing Domain Adaptation via Retrieval-Based Instruction Dataset Creation
September 12, 2025
papers.authors: Iman Barati, Mostafa Amiri, Heshaam Faili
cs.AI
papers.abstract
Supervised Fine-Tuning (SFT) ist entscheidend für das Training großer Sprachmodelle (LLMs) und verbessert wesentliche Fähigkeiten wie das Befolgen von Anweisungen und das Lernen im Kontext erheblich. Dennoch bleibt die Erstellung geeigneter Trainingsdatensätze, die auf spezifische Domänen zugeschnitten sind, aufgrund einzigartiger Domänenbeschränkungen und Datenknappheit eine Herausforderung. In diesem Artikel stellen wir SearchInstruct vor, eine innovative Methode, die speziell für die Konstruktion hochwertiger Instruktionsdatensätze für SFT entwickelt wurde. Unser Ansatz beginnt mit einer begrenzten Menge von domänenspezifischen, von Menschen generierten Fragen, die systematisch mithilfe eines großen Sprachmodells erweitert werden. Anschließend werden domänenrelevante Ressourcen dynamisch abgerufen, um präzise und kontextuell angemessene Antworten für jede erweiterte Frage zu generieren. Experimentelle Auswertungen zeigen, dass SearchInstruct sowohl die Vielfalt als auch die Qualität von SFT-Datensätzen verbessert, was zu messbaren Verbesserungen der LLM-Leistung in spezialisierten Domänen führt. Darüber hinaus zeigen wir, dass die vorgeschlagene Methode über die Datensatzgenerierung hinaus auch Aufgaben wie die Modellbearbeitung effektiv unterstützen kann, was effiziente Aktualisierungen bestehender Modelle ermöglicht. Um Reproduzierbarkeit und die Übernahme durch die Community zu erleichtern, stellen wir vollständige Implementierungsdetails, den vollständigen Satz generierter Instruktions-Antwort-Paare und den Quellcode in einem öffentlich zugänglichen Git-Repository bereit: [https://github.com/mostafaamiri/SearchInstruct](https://github.com/mostafaamiri/SearchInstruct).
English
Supervised Fine-Tuning (SFT) is essential for training large language models
(LLMs), significantly enhancing critical capabilities such as instruction
following and in-context learning. Nevertheless, creating suitable training
datasets tailored for specific domains remains challenging due to unique domain
constraints and data scarcity. In this paper, we propose SearchInstruct, an
innovative method explicitly designed to construct high quality instruction
datasets for SFT. Our approach begins with a limited set of domain specific,
human generated questions, which are systematically expanded using a large
language model. Subsequently, domain relevant resources are dynamically
retrieved to generate accurate and contextually appropriate answers for each
augmented question. Experimental evaluation demonstrates that SearchInstruct
enhances both the diversity and quality of SFT datasets, leading to measurable
improvements in LLM performance within specialized domains. Additionally, we
show that beyond dataset generation, the proposed method can also effectively
facilitate tasks such as model editing, enabling efficient updates to existing
models. To facilitate reproducibility and community adoption, we provide full
implementation details, the complete set of generated instruction response
pairs, and the source code in a publicly accessible Git repository:
[https://github.com/mostafaamiri/SearchInstruct](https://github.com/mostafaamiri/SearchInstruct)