ChatPaper.aiChatPaper

Selecteren en Samenvoegen: Naar Aanpasbare en Schaalbare Herkenning van Benoemde Entiteiten met Grote Taalmodellen

Selecting and Merging: Towards Adaptable and Scalable Named Entity Recognition with Large Language Models

June 28, 2025
Auteurs: Zhuojun Ding, Wei Wei, Chenghao Fan
cs.AI

Samenvatting

Supervised fine-tuning (SFT) wordt veel gebruikt om grote taalmmodellen (LLMs) af te stemmen op informatie-extractie (IE) taken, zoals named entity recognition (NER). Het annoteren van dergelijke fijnmazige labels en het trainen van domeinspecifieke modellen is echter kostbaar. Bestaande werken trainen doorgaans een uniform model voor meerdere domeinen, maar dergelijke benaderingen missen aanpassingsvermogen en schaalbaarheid, omdat niet alle trainingsgegevens voordeel bieden voor de doeldomeinen en het schalen van getrainde modellen een uitdaging blijft. Wij stellen het SaM-framework voor, dat dynamisch expertmodellen selecteert en samenvoegt tijdens de inferentiefase. Specifiek selecteren we voor een doeldomein domeinspecifieke experts die vooraf zijn getraind op bestaande domeinen, gebaseerd op (i) domeingelijkheid met het doeldomein en (ii) prestaties op bemonsterde instanties. De experts worden vervolgens samengevoegd om taakspecifieke modellen te creëren die zijn geoptimaliseerd voor het doeldomein. Door dynamisch experts samen te voegen die voordelig zijn voor doeldomeinen, verbeteren we de generalisatie over verschillende domeinen zonder extra training. Bovendien kunnen experts eenvoudig worden toegevoegd of verwijderd, wat leidt tot grote schaalbaarheid. Uitgebreide experimenten op meerdere benchmarks tonen de effectiviteit van ons framework aan, dat het uniforme model gemiddeld met 10% overtreft. We bieden verder inzichten in mogelijke verbeteringen, praktische ervaringen en uitbreidingen van ons framework.
English
Supervised fine-tuning (SFT) is widely used to align large language models (LLMs) with information extraction (IE) tasks, such as named entity recognition (NER). However, annotating such fine-grained labels and training domain-specific models is costly. Existing works typically train a unified model across multiple domains, but such approaches lack adaptation and scalability since not all training data benefits target domains and scaling trained models remains challenging. We propose the SaM framework, which dynamically Selects and Merges expert models at inference time. Specifically, for a target domain, we select domain-specific experts pre-trained on existing domains based on (i) domain similarity to the target domain and (ii) performance on sampled instances, respectively. The experts are then merged to create task-specific models optimized for the target domain. By dynamically merging experts beneficial to target domains, we improve generalization across various domains without extra training. Additionally, experts can be added or removed conveniently, leading to great scalability. Extensive experiments on multiple benchmarks demonstrate our framework's effectiveness, which outperforms the unified model by an average of 10%. We further provide insights into potential improvements, practical experience, and extensions of our framework.
PDF71July 4, 2025