Выбор и объединение: в направлении адаптируемого и масштабируемого распознавания именованных сущностей с использованием больших языковых моделей

Аннотация

Тонкая настройка с учителем (SFT) широко используется для адаптации больших языковых моделей (LLM) к задачам извлечения информации (IE), таким как распознавание именованных сущностей (NER). Однако аннотирование таких детализированных меток и обучение моделей для конкретных доменов является затратным. Существующие работы обычно обучают унифицированную модель для нескольких доменов, но такие подходы не обладают адаптивностью и масштабируемостью, поскольку не все обучающие данные полезны для целевых доменов, а масштабирование обученных моделей остается сложной задачей. Мы предлагаем фреймворк SaM, который динамически выбирает и объединяет экспертные модели на этапе вывода. В частности, для целевого домена мы выбираем доменно-специфических экспертов, предварительно обученных на существующих доменах, на основе (i) сходства доменов с целевым доменом и (ii) производительности на выборочных примерах соответственно. Затем эксперты объединяются для создания моделей, оптимизированных для целевого домена. Благодаря динамическому объединению экспертов, полезных для целевых доменов, мы улучшаем обобщение для различных доменов без дополнительного обучения. Кроме того, эксперты могут быть легко добавлены или удалены, что обеспечивает высокую масштабируемость. Многочисленные эксперименты на нескольких бенчмарках демонстрируют эффективность нашего фреймворка, который превосходит унифицированную модель в среднем на 10%. Мы также предоставляем инсайты о потенциальных улучшениях, практическом опыте и расширениях нашего фреймворка.

English

Supervised fine-tuning (SFT) is widely used to align large language models (LLMs) with information extraction (IE) tasks, such as named entity recognition (NER). However, annotating such fine-grained labels and training domain-specific models is costly. Existing works typically train a unified model across multiple domains, but such approaches lack adaptation and scalability since not all training data benefits target domains and scaling trained models remains challenging. We propose the SaM framework, which dynamically Selects and Merges expert models at inference time. Specifically, for a target domain, we select domain-specific experts pre-trained on existing domains based on (i) domain similarity to the target domain and (ii) performance on sampled instances, respectively. The experts are then merged to create task-specific models optimized for the target domain. By dynamically merging experts beneficial to target domains, we improve generalization across various domains without extra training. Additionally, experts can be added or removed conveniently, leading to great scalability. Extensive experiments on multiple benchmarks demonstrate our framework's effectiveness, which outperforms the unified model by an average of 10%. We further provide insights into potential improvements, practical experience, and extensions of our framework.

Выбор и объединение: в направлении адаптируемого и масштабируемого распознавания именованных сущностей с использованием больших языковых моделей

Selecting and Merging: Towards Adaptable and Scalable Named Entity Recognition with Large Language Models

Аннотация

Support