Выбор и объединение: в направлении адаптируемого и масштабируемого распознавания именованных сущностей с использованием больших языковых моделей
Selecting and Merging: Towards Adaptable and Scalable Named Entity Recognition with Large Language Models
June 28, 2025
Авторы: Zhuojun Ding, Wei Wei, Chenghao Fan
cs.AI
Аннотация
Тонкая настройка с учителем (SFT) широко используется для адаптации больших языковых моделей (LLM) к задачам извлечения информации (IE), таким как распознавание именованных сущностей (NER). Однако аннотирование таких детализированных меток и обучение моделей для конкретных доменов является затратным. Существующие работы обычно обучают унифицированную модель для нескольких доменов, но такие подходы не обладают адаптивностью и масштабируемостью, поскольку не все обучающие данные полезны для целевых доменов, а масштабирование обученных моделей остается сложной задачей. Мы предлагаем фреймворк SaM, который динамически выбирает и объединяет экспертные модели на этапе вывода. В частности, для целевого домена мы выбираем доменно-специфических экспертов, предварительно обученных на существующих доменах, на основе (i) сходства доменов с целевым доменом и (ii) производительности на выборочных примерах соответственно. Затем эксперты объединяются для создания моделей, оптимизированных для целевого домена. Благодаря динамическому объединению экспертов, полезных для целевых доменов, мы улучшаем обобщение для различных доменов без дополнительного обучения. Кроме того, эксперты могут быть легко добавлены или удалены, что обеспечивает высокую масштабируемость. Многочисленные эксперименты на нескольких бенчмарках демонстрируют эффективность нашего фреймворка, который превосходит унифицированную модель в среднем на 10%. Мы также предоставляем инсайты о потенциальных улучшениях, практическом опыте и расширениях нашего фреймворка.
English
Supervised fine-tuning (SFT) is widely used to align large language models
(LLMs) with information extraction (IE) tasks, such as named entity recognition
(NER). However, annotating such fine-grained labels and training
domain-specific models is costly. Existing works typically train a unified
model across multiple domains, but such approaches lack adaptation and
scalability since not all training data benefits target domains and scaling
trained models remains challenging. We propose the SaM framework, which
dynamically Selects and Merges expert models at inference time. Specifically,
for a target domain, we select domain-specific experts pre-trained on existing
domains based on (i) domain similarity to the target domain and (ii)
performance on sampled instances, respectively. The experts are then merged to
create task-specific models optimized for the target domain. By dynamically
merging experts beneficial to target domains, we improve generalization across
various domains without extra training. Additionally, experts can be added or
removed conveniently, leading to great scalability. Extensive experiments on
multiple benchmarks demonstrate our framework's effectiveness, which
outperforms the unified model by an average of 10%. We further provide insights
into potential improvements, practical experience, and extensions of our
framework.