Выбери, чтобы знать: фреймворк самоотбора внутренних и внешних знаний для предметно-ориентированного ответа на вопросы
Select to Know: An Internal-External Knowledge Self-Selection Framework for Domain-Specific Question Answering
August 21, 2025
Авторы: Bolei He, Xinran He, Run Shao, Shanfu Shu, Xianwei Xue, Mingquan Cheng, Haifeng Li, Zhenhua Ling
cs.AI
Аннотация
Крупные языковые модели (LLM) демонстрируют хорошие результаты в задачах общего вопросно-ответного взаимодействия, но часто испытывают трудности в узкоспециализированных сценариях. Метод генерации, дополненной извлечением данных (RAG), использует внешние знания, но страдает от галлюцинаций и задержек из-за шумного извлечения информации. Продолженное предобучение позволяет усвоить предметные знания, но оно затратно и не обеспечивает гибкости в кросс-доменных задачах. Мы связываем эту проблему с длиннохвостым распределением предметных знаний, что приводит к недостаточному использованию частично усвоенных, но полезных внутренних знаний. Мы также утверждаем, что процесс усвоения знаний должен быть прогрессивным, отражая человеческое обучение: сначала понимание концепций, затем их применение в сложных рассуждениях. Для решения этой задачи мы предлагаем Selct2Know (S2K), экономически эффективную структуру, которая усваивает предметные знания через стратегию самоотбора внутренних и внешних знаний и выборочное контролируемое тонкое обучение. Мы также представляем конвейер генерации структурированных данных для рассуждений и интегрируем GRPO для улучшения способности к рассуждению. Эксперименты на медицинских, юридических и финансовых вопросно-ответных бенчмарках показывают, что S2K стабильно превосходит существующие методы и достигает уровня LLM, предобученных в предметной области, при значительно меньших затратах.
English
Large Language Models (LLMs) perform well in general QA but often struggle in
domain-specific scenarios. Retrieval-Augmented Generation (RAG) introduces
external knowledge but suffers from hallucinations and latency due to noisy
retrievals. Continued pretraining internalizes domain knowledge but is costly
and lacks cross-domain flexibility. We attribute this challenge to the
long-tail distribution of domain knowledge, which leaves partial yet useful
internal knowledge underutilized. We further argue that knowledge acquisition
should be progressive, mirroring human learning: first understanding concepts,
then applying them to complex reasoning. To address this, we propose Selct2Know
(S2K), a cost-effective framework that internalizes domain knowledge through an
internal-external knowledge self-selection strategy and selective supervised
fine-tuning. We also introduce a structured reasoning data generation pipeline
and integrate GRPO to enhance reasoning ability. Experiments on medical, legal,
and financial QA benchmarks show that S2K consistently outperforms existing
methods and matches domain-pretrained LLMs with significantly lower cost.