SearchInstruct : Amélioration de l'adaptation de domaine via la création d'un ensemble d'instructions basé sur la recherche
SearchInstruct: Enhancing Domain Adaptation via Retrieval-Based Instruction Dataset Creation
September 12, 2025
papers.authors: Iman Barati, Mostafa Amiri, Heshaam Faili
cs.AI
papers.abstract
Le Fine-Tuning Supervisé (SFT) est essentiel pour entraîner les grands modèles de langage (LLMs), améliorant de manière significative des capacités critiques telles que le suivi d'instructions et l'apprentissage en contexte. Cependant, la création de jeux de données d'entraînement adaptés à des domaines spécifiques reste un défi en raison des contraintes propres à chaque domaine et de la rareté des données. Dans cet article, nous proposons SearchInstruct, une méthode innovante conçue explicitement pour construire des jeux de données d'instructions de haute qualité pour le SFT. Notre approche commence avec un ensemble limité de questions spécifiques à un domaine, générées par des humains, qui sont ensuite systématiquement enrichies à l'aide d'un grand modèle de langage. Par la suite, des ressources pertinentes au domaine sont récupérées dynamiquement pour générer des réponses précises et contextuellement adaptées à chaque question augmentée. L'évaluation expérimentale démontre que SearchInstruct améliore à la fois la diversité et la qualité des jeux de données pour le SFT, conduisant à des améliorations mesurables des performances des LLMs dans des domaines spécialisés. De plus, nous montrons qu'au-delà de la génération de jeux de données, la méthode proposée peut également faciliter efficacement des tâches telles que l'édition de modèles, permettant des mises à jour efficaces des modèles existants. Pour favoriser la reproductibilité et l'adoption par la communauté, nous fournissons tous les détails d'implémentation, l'ensemble complet des paires instruction-réponse générées, ainsi que le code source dans un dépôt Git accessible publiquement : [https://github.com/mostafaamiri/SearchInstruct](https://github.com/mostafaamiri/SearchInstruct).
English
Supervised Fine-Tuning (SFT) is essential for training large language models
(LLMs), significantly enhancing critical capabilities such as instruction
following and in-context learning. Nevertheless, creating suitable training
datasets tailored for specific domains remains challenging due to unique domain
constraints and data scarcity. In this paper, we propose SearchInstruct, an
innovative method explicitly designed to construct high quality instruction
datasets for SFT. Our approach begins with a limited set of domain specific,
human generated questions, which are systematically expanded using a large
language model. Subsequently, domain relevant resources are dynamically
retrieved to generate accurate and contextually appropriate answers for each
augmented question. Experimental evaluation demonstrates that SearchInstruct
enhances both the diversity and quality of SFT datasets, leading to measurable
improvements in LLM performance within specialized domains. Additionally, we
show that beyond dataset generation, the proposed method can also effectively
facilitate tasks such as model editing, enabling efficient updates to existing
models. To facilitate reproducibility and community adoption, we provide full
implementation details, the complete set of generated instruction response
pairs, and the source code in a publicly accessible Git repository:
[https://github.com/mostafaamiri/SearchInstruct](https://github.com/mostafaamiri/SearchInstruct)