SearchInstruct: Aprimorando a Adaptação de Domínio por meio da Criação de Conjuntos de Dados de Instrução Baseados em Recuperação
SearchInstruct: Enhancing Domain Adaptation via Retrieval-Based Instruction Dataset Creation
September 12, 2025
Autores: Iman Barati, Mostafa Amiri, Heshaam Faili
cs.AI
Resumo
O Ajuste Fino Supervisionado (SFT) é essencial para o treinamento de modelos de linguagem de grande escala (LLMs), aprimorando significativamente capacidades críticas, como o seguimento de instruções e a aprendizagem em contexto. No entanto, a criação de conjuntos de dados de treinamento adequados e adaptados a domínios específicos continua sendo um desafio devido a restrições únicas do domínio e à escassez de dados. Neste artigo, propomos o SearchInstruct, um método inovador projetado especificamente para construir conjuntos de dados de instruções de alta qualidade para SFT. Nossa abordagem começa com um conjunto limitado de perguntas específicas do domínio, geradas por humanos, que são sistematicamente expandidas usando um modelo de linguagem de grande escala. Em seguida, recursos relevantes ao domínio são recuperados dinamicamente para gerar respostas precisas e contextualmente apropriadas para cada pergunta ampliada. A avaliação experimental demonstra que o SearchInstruct melhora tanto a diversidade quanto a qualidade dos conjuntos de dados de SFT, resultando em melhorias mensuráveis no desempenho de LLMs em domínios especializados. Além disso, mostramos que, além da geração de conjuntos de dados, o método proposto também pode facilitar efetivamente tarefas como a edição de modelos, permitindo atualizações eficientes em modelos existentes. Para facilitar a reprodutibilidade e a adoção pela comunidade, fornecemos detalhes completos de implementação, o conjunto completo de pares de instrução-resposta gerados e o código-fonte em um repositório Git publicamente acessível: [https://github.com/mostafaamiri/SearchInstruct](https://github.com/mostafaamiri/SearchInstruct).
English
Supervised Fine-Tuning (SFT) is essential for training large language models
(LLMs), significantly enhancing critical capabilities such as instruction
following and in-context learning. Nevertheless, creating suitable training
datasets tailored for specific domains remains challenging due to unique domain
constraints and data scarcity. In this paper, we propose SearchInstruct, an
innovative method explicitly designed to construct high quality instruction
datasets for SFT. Our approach begins with a limited set of domain specific,
human generated questions, which are systematically expanded using a large
language model. Subsequently, domain relevant resources are dynamically
retrieved to generate accurate and contextually appropriate answers for each
augmented question. Experimental evaluation demonstrates that SearchInstruct
enhances both the diversity and quality of SFT datasets, leading to measurable
improvements in LLM performance within specialized domains. Additionally, we
show that beyond dataset generation, the proposed method can also effectively
facilitate tasks such as model editing, enabling efficient updates to existing
models. To facilitate reproducibility and community adoption, we provide full
implementation details, the complete set of generated instruction response
pairs, and the source code in a publicly accessible Git repository:
[https://github.com/mostafaamiri/SearchInstruct](https://github.com/mostafaamiri/SearchInstruct)