ChatPaper.aiChatPaper

선택과 병합: 대규모 언어 모델을 활용한 적응형 및 확장 가능한 개체명 인식 기술

Selecting and Merging: Towards Adaptable and Scalable Named Entity Recognition with Large Language Models

June 28, 2025
저자: Zhuojun Ding, Wei Wei, Chenghao Fan
cs.AI

초록

지도 미세 조정(SFT)은 명명된 개체 인식(NER)과 같은 정보 추출(IE) 작업에 대형 언어 모델(LLM)을 맞추기 위해 널리 사용됩니다. 그러나 이러한 세분화된 레이블을 주석 처리하고 도메인별 모델을 훈련시키는 데는 비용이 많이 듭니다. 기존 연구에서는 일반적으로 여러 도메인에 걸쳐 통합 모델을 훈련시키지만, 이러한 접근 방식은 모든 훈련 데이터가 대상 도메인에 도움이 되는 것은 아니며, 훈련된 모델을 확장하는 것이 여전히 어렵기 때문에 적응성과 확장성이 부족합니다. 우리는 추론 시점에 전문가 모델을 동적으로 선택하고 병합하는 SaM 프레임워크를 제안합니다. 구체적으로, 대상 도메인에 대해 (i) 대상 도메인과의 도메인 유사성과 (ii) 샘플 인스턴스에 대한 성능을 기준으로 기존 도메인에서 사전 훈련된 도메인별 전문가를 선택합니다. 그런 다음 전문가를 병합하여 대상 도메인에 최적화된 작업별 모델을 생성합니다. 대상 도메인에 유익한 전문가를 동적으로 병합함으로써 추가 훈련 없이 다양한 도메인에서의 일반화를 개선합니다. 또한 전문가를 편리하게 추가하거나 제거할 수 있어 뛰어난 확장성을 제공합니다. 여러 벤치마크에 대한 광범위한 실험을 통해 우리 프레임워크의 효과를 입증했으며, 통합 모델보다 평균 10% 더 우수한 성능을 보였습니다. 우리는 또한 잠재적인 개선 사항, 실용적인 경험, 그리고 우리 프레임워크의 확장에 대한 통찰을 제공합니다.
English
Supervised fine-tuning (SFT) is widely used to align large language models (LLMs) with information extraction (IE) tasks, such as named entity recognition (NER). However, annotating such fine-grained labels and training domain-specific models is costly. Existing works typically train a unified model across multiple domains, but such approaches lack adaptation and scalability since not all training data benefits target domains and scaling trained models remains challenging. We propose the SaM framework, which dynamically Selects and Merges expert models at inference time. Specifically, for a target domain, we select domain-specific experts pre-trained on existing domains based on (i) domain similarity to the target domain and (ii) performance on sampled instances, respectively. The experts are then merged to create task-specific models optimized for the target domain. By dynamically merging experts beneficial to target domains, we improve generalization across various domains without extra training. Additionally, experts can be added or removed conveniently, leading to great scalability. Extensive experiments on multiple benchmarks demonstrate our framework's effectiveness, which outperforms the unified model by an average of 10%. We further provide insights into potential improvements, practical experience, and extensions of our framework.
PDF61July 4, 2025