SearchInstruct: Улучшение адаптации к домену через создание наборов инструкций на основе поиска
SearchInstruct: Enhancing Domain Adaptation via Retrieval-Based Instruction Dataset Creation
September 12, 2025
Авторы: Iman Barati, Mostafa Amiri, Heshaam Faili
cs.AI
Аннотация
Контролируемая тонкая настройка (Supervised Fine-Tuning, SFT) играет ключевую роль в обучении крупных языковых моделей (LLMs), значительно улучшая их важные способности, такие как следование инструкциям и обучение в контексте. Однако создание подходящих обучающих наборов данных, адаптированных для конкретных областей, остается сложной задачей из-за уникальных ограничений доменов и недостатка данных. В данной статье мы предлагаем SearchInstruct — инновационный метод, специально разработанный для построения высококачественных наборов инструкций для SFT. Наш подход начинается с ограниченного набора доменно-специфичных вопросов, созданных человеком, которые систематически расширяются с использованием крупной языковой модели. Затем динамически извлекаются релевантные доменные ресурсы для генерации точных и контекстуально подходящих ответов на каждый расширенный вопрос. Экспериментальная оценка показывает, что SearchInstruct повышает как разнообразие, так и качество наборов данных для SFT, что приводит к измеримым улучшениям производительности LLM в специализированных областях. Кроме того, мы демонстрируем, что помимо генерации наборов данных, предложенный метод также эффективно способствует выполнению задач, таких как редактирование моделей, позволяя эффективно обновлять существующие модели. Для обеспечения воспроизводимости и внедрения сообществом мы предоставляем полные детали реализации, полный набор сгенерированных пар "инструкция-ответ" и исходный код в общедоступном Git-репозитории: [https://github.com/mostafaamiri/SearchInstruct](https://github.com/mostafaamiri/SearchInstruct).
English
Supervised Fine-Tuning (SFT) is essential for training large language models
(LLMs), significantly enhancing critical capabilities such as instruction
following and in-context learning. Nevertheless, creating suitable training
datasets tailored for specific domains remains challenging due to unique domain
constraints and data scarcity. In this paper, we propose SearchInstruct, an
innovative method explicitly designed to construct high quality instruction
datasets for SFT. Our approach begins with a limited set of domain specific,
human generated questions, which are systematically expanded using a large
language model. Subsequently, domain relevant resources are dynamically
retrieved to generate accurate and contextually appropriate answers for each
augmented question. Experimental evaluation demonstrates that SearchInstruct
enhances both the diversity and quality of SFT datasets, leading to measurable
improvements in LLM performance within specialized domains. Additionally, we
show that beyond dataset generation, the proposed method can also effectively
facilitate tasks such as model editing, enabling efficient updates to existing
models. To facilitate reproducibility and community adoption, we provide full
implementation details, the complete set of generated instruction response
pairs, and the source code in a publicly accessible Git repository:
[https://github.com/mostafaamiri/SearchInstruct](https://github.com/mostafaamiri/SearchInstruct)