Selezione e Fusione: Verso un Riconoscimento di Entità Nominate Adattabile e Scalabile con Modelli Linguistici di Grandi Dimensioni
Selecting and Merging: Towards Adaptable and Scalable Named Entity Recognition with Large Language Models
June 28, 2025
Autori: Zhuojun Ding, Wei Wei, Chenghao Fan
cs.AI
Abstract
Il fine-tuning supervisionato (SFT) è ampiamente utilizzato per allineare i grandi modelli linguistici (LLM) con compiti di estrazione di informazioni (IE), come il riconoscimento di entità nominate (NER). Tuttavia, annotare etichette così granulari e addestrare modelli specifici per dominio è costoso. Le opere esistenti tipicamente addestrano un modello unificato su più domini, ma tali approcci mancano di adattabilità e scalabilità poiché non tutti i dati di addestramento giovano ai domini target e il ridimensionamento dei modelli addestrati rimane una sfida. Proponiamo il framework SaM, che seleziona e fonde dinamicamente modelli esperti al momento dell'inferenza. Nello specifico, per un dominio target, selezioniamo esperti specifici per dominio pre-addestrati su domini esistenti basandoci su (i) somiglianza del dominio con il dominio target e (ii) prestazioni su istanze campionate, rispettivamente. Gli esperti vengono poi fusi per creare modelli specifici per compito ottimizzati per il dominio target. Fondendo dinamicamente esperti vantaggiosi per i domini target, miglioriamo la generalizzazione su vari domini senza ulteriore addestramento. Inoltre, gli esperti possono essere aggiunti o rimossi comodamente, portando a una grande scalabilità. Esperimenti estesi su più benchmark dimostrano l'efficacia del nostro framework, che supera il modello unificato in media del 10%. Forniamo inoltre approfondimenti su potenziali miglioramenti, esperienze pratiche ed estensioni del nostro framework.
English
Supervised fine-tuning (SFT) is widely used to align large language models
(LLMs) with information extraction (IE) tasks, such as named entity recognition
(NER). However, annotating such fine-grained labels and training
domain-specific models is costly. Existing works typically train a unified
model across multiple domains, but such approaches lack adaptation and
scalability since not all training data benefits target domains and scaling
trained models remains challenging. We propose the SaM framework, which
dynamically Selects and Merges expert models at inference time. Specifically,
for a target domain, we select domain-specific experts pre-trained on existing
domains based on (i) domain similarity to the target domain and (ii)
performance on sampled instances, respectively. The experts are then merged to
create task-specific models optimized for the target domain. By dynamically
merging experts beneficial to target domains, we improve generalization across
various domains without extra training. Additionally, experts can be added or
removed conveniently, leading to great scalability. Extensive experiments on
multiple benchmarks demonstrate our framework's effectiveness, which
outperforms the unified model by an average of 10%. We further provide insights
into potential improvements, practical experience, and extensions of our
framework.