Sélection et Fusion : Vers une Reconnaissance d'Entités Nommées Adaptable et Évolutive avec des Modèles de Langage à Grande Échelle
Selecting and Merging: Towards Adaptable and Scalable Named Entity Recognition with Large Language Models
June 28, 2025
Auteurs: Zhuojun Ding, Wei Wei, Chenghao Fan
cs.AI
Résumé
Le réglage supervisé (SFT) est largement utilisé pour aligner les grands modèles de langage (LLMs) avec des tâches d'extraction d'information (IE), telles que la reconnaissance d'entités nommées (NER). Cependant, annoter de telles étiquettes fines et entraîner des modèles spécifiques à un domaine est coûteux. Les travaux existants entraînent généralement un modèle unifié sur plusieurs domaines, mais ces approches manquent d'adaptation et d'évolutivité, car toutes les données d'entraînement ne profitent pas aux domaines cibles et la mise à l'échelle des modèles entraînés reste difficile. Nous proposons le cadre SaM, qui sélectionne et fusionne dynamiquement des modèles experts au moment de l'inférence. Plus précisément, pour un domaine cible, nous sélectionnons des experts spécifiques au domaine pré-entraînés sur des domaines existants en fonction (i) de la similarité du domaine avec le domaine cible et (ii) des performances sur des instances échantillonnées, respectivement. Les experts sont ensuite fusionnés pour créer des modèles spécifiques à la tâche optimisés pour le domaine cible. En fusionnant dynamiquement des experts bénéfiques pour les domaines cibles, nous améliorons la généralisation sur divers domaines sans entraînement supplémentaire. De plus, les experts peuvent être ajoutés ou retirés facilement, ce qui offre une grande évolutivité. Des expériences approfondies sur plusieurs benchmarks démontrent l'efficacité de notre cadre, qui surpasse le modèle unifié en moyenne de 10 %. Nous fournissons également des insights sur les améliorations potentielles, l'expérience pratique et les extensions de notre cadre.
English
Supervised fine-tuning (SFT) is widely used to align large language models
(LLMs) with information extraction (IE) tasks, such as named entity recognition
(NER). However, annotating such fine-grained labels and training
domain-specific models is costly. Existing works typically train a unified
model across multiple domains, but such approaches lack adaptation and
scalability since not all training data benefits target domains and scaling
trained models remains challenging. We propose the SaM framework, which
dynamically Selects and Merges expert models at inference time. Specifically,
for a target domain, we select domain-specific experts pre-trained on existing
domains based on (i) domain similarity to the target domain and (ii)
performance on sampled instances, respectively. The experts are then merged to
create task-specific models optimized for the target domain. By dynamically
merging experts beneficial to target domains, we improve generalization across
various domains without extra training. Additionally, experts can be added or
removed conveniently, leading to great scalability. Extensive experiments on
multiple benchmarks demonstrate our framework's effectiveness, which
outperforms the unified model by an average of 10%. We further provide insights
into potential improvements, practical experience, and extensions of our
framework.