SearchInstruct: Mejora de la Adaptación de Dominios mediante la Creación de Conjuntos de Datos de Instrucciones Basados en Recuperación
SearchInstruct: Enhancing Domain Adaptation via Retrieval-Based Instruction Dataset Creation
September 12, 2025
Autores: Iman Barati, Mostafa Amiri, Heshaam Faili
cs.AI
Resumen
El Ajuste Fino Supervisado (SFT, por sus siglas en inglés) es esencial para entrenar modelos de lenguaje de gran escala (LLMs), mejorando significativamente capacidades críticas como el seguimiento de instrucciones y el aprendizaje en contexto. Sin embargo, la creación de conjuntos de datos de entrenamiento adecuados y adaptados a dominios específicos sigue siendo un desafío debido a las restricciones únicas del dominio y la escasez de datos. En este artículo, proponemos SearchInstruct, un método innovador diseñado explícitamente para construir conjuntos de datos de instrucciones de alta calidad para SFT. Nuestro enfoque comienza con un conjunto limitado de preguntas generadas por humanos y específicas del dominio, las cuales se expanden sistemáticamente utilizando un modelo de lenguaje de gran escala. Posteriormente, se recuperan dinámicamente recursos relevantes al dominio para generar respuestas precisas y contextualmente apropiadas para cada pregunta ampliada. La evaluación experimental demuestra que SearchInstruct mejora tanto la diversidad como la calidad de los conjuntos de datos de SFT, lo que conduce a mejoras medibles en el rendimiento de los LLMs dentro de dominios especializados. Además, mostramos que, más allá de la generación de conjuntos de datos, el método propuesto también puede facilitar eficazmente tareas como la edición de modelos, permitiendo actualizaciones eficientes a modelos existentes. Para facilitar la reproducibilidad y la adopción por parte de la comunidad, proporcionamos detalles completos de implementación, el conjunto completo de pares de instrucción-respuesta generados y el código fuente en un repositorio Git de acceso público: [https://github.com/mostafaamiri/SearchInstruct](https://github.com/mostafaamiri/SearchInstruct).
English
Supervised Fine-Tuning (SFT) is essential for training large language models
(LLMs), significantly enhancing critical capabilities such as instruction
following and in-context learning. Nevertheless, creating suitable training
datasets tailored for specific domains remains challenging due to unique domain
constraints and data scarcity. In this paper, we propose SearchInstruct, an
innovative method explicitly designed to construct high quality instruction
datasets for SFT. Our approach begins with a limited set of domain specific,
human generated questions, which are systematically expanded using a large
language model. Subsequently, domain relevant resources are dynamically
retrieved to generate accurate and contextually appropriate answers for each
augmented question. Experimental evaluation demonstrates that SearchInstruct
enhances both the diversity and quality of SFT datasets, leading to measurable
improvements in LLM performance within specialized domains. Additionally, we
show that beyond dataset generation, the proposed method can also effectively
facilitate tasks such as model editing, enabling efficient updates to existing
models. To facilitate reproducibility and community adoption, we provide full
implementation details, the complete set of generated instruction response
pairs, and the source code in a publicly accessible Git repository:
[https://github.com/mostafaamiri/SearchInstruct](https://github.com/mostafaamiri/SearchInstruct)