SearchInstruct: Miglioramento dell'Adattamento al Dominio tramite la Creazione di Dataset di Istruzioni Basati su Recupero
SearchInstruct: Enhancing Domain Adaptation via Retrieval-Based Instruction Dataset Creation
September 12, 2025
Autori: Iman Barati, Mostafa Amiri, Heshaam Faili
cs.AI
Abstract
Il Fine-Tuning Supervisionato (SFT) è essenziale per l'addestramento di grandi modelli linguistici (LLM), migliorando significativamente capacità critiche come il seguire istruzioni e l'apprendimento contestuale. Tuttavia, la creazione di dataset di addestramento adatti a domini specifici rimane una sfida a causa di vincoli unici del dominio e della scarsità di dati. In questo articolo, proponiamo SearchInstruct, un metodo innovativo progettato esplicitamente per costruire dataset di istruzioni di alta qualità per il SFT. Il nostro approccio inizia con un insieme limitato di domande specifiche del dominio generate da esseri umani, che vengono sistematicamente ampliate utilizzando un grande modello linguistico. Successivamente, risorse rilevanti per il dominio vengono recuperate dinamicamente per generare risposte accurate e contestualmente appropriate per ciascuna domanda ampliata. La valutazione sperimentale dimostra che SearchInstruct migliora sia la diversità che la qualità dei dataset SFT, portando a miglioramenti misurabili nelle prestazioni degli LLM all'interno di domini specializzati. Inoltre, mostriamo che, oltre alla generazione di dataset, il metodo proposto può anche facilitare efficacemente attività come la modifica del modello, consentendo aggiornamenti efficienti ai modelli esistenti. Per favorire la riproducibilità e l'adozione da parte della comunità, forniamo dettagli completi di implementazione, l'intero set di coppie istruzione-risposta generate e il codice sorgente in un repository Git accessibile pubblicamente: [https://github.com/mostafaamiri/SearchInstruct](https://github.com/mostafaamiri/SearchInstruct).
English
Supervised Fine-Tuning (SFT) is essential for training large language models
(LLMs), significantly enhancing critical capabilities such as instruction
following and in-context learning. Nevertheless, creating suitable training
datasets tailored for specific domains remains challenging due to unique domain
constraints and data scarcity. In this paper, we propose SearchInstruct, an
innovative method explicitly designed to construct high quality instruction
datasets for SFT. Our approach begins with a limited set of domain specific,
human generated questions, which are systematically expanded using a large
language model. Subsequently, domain relevant resources are dynamically
retrieved to generate accurate and contextually appropriate answers for each
augmented question. Experimental evaluation demonstrates that SearchInstruct
enhances both the diversity and quality of SFT datasets, leading to measurable
improvements in LLM performance within specialized domains. Additionally, we
show that beyond dataset generation, the proposed method can also effectively
facilitate tasks such as model editing, enabling efficient updates to existing
models. To facilitate reproducibility and community adoption, we provide full
implementation details, the complete set of generated instruction response
pairs, and the source code in a publicly accessible Git repository:
[https://github.com/mostafaamiri/SearchInstruct](https://github.com/mostafaamiri/SearchInstruct)