Selezione e Fusione: Verso un Riconoscimento di Entità Nominate Adattabile e Scalabile con Modelli Linguistici di Grandi Dimensioni

Abstract

Il fine-tuning supervisionato (SFT) è ampiamente utilizzato per allineare i grandi modelli linguistici (LLM) con compiti di estrazione di informazioni (IE), come il riconoscimento di entità nominate (NER). Tuttavia, annotare etichette così granulari e addestrare modelli specifici per dominio è costoso. Le opere esistenti tipicamente addestrano un modello unificato su più domini, ma tali approcci mancano di adattabilità e scalabilità poiché non tutti i dati di addestramento giovano ai domini target e il ridimensionamento dei modelli addestrati rimane una sfida. Proponiamo il framework SaM, che seleziona e fonde dinamicamente modelli esperti al momento dell'inferenza. Nello specifico, per un dominio target, selezioniamo esperti specifici per dominio pre-addestrati su domini esistenti basandoci su (i) somiglianza del dominio con il dominio target e (ii) prestazioni su istanze campionate, rispettivamente. Gli esperti vengono poi fusi per creare modelli specifici per compito ottimizzati per il dominio target. Fondendo dinamicamente esperti vantaggiosi per i domini target, miglioriamo la generalizzazione su vari domini senza ulteriore addestramento. Inoltre, gli esperti possono essere aggiunti o rimossi comodamente, portando a una grande scalabilità. Esperimenti estesi su più benchmark dimostrano l'efficacia del nostro framework, che supera il modello unificato in media del 10%. Forniamo inoltre approfondimenti su potenziali miglioramenti, esperienze pratiche ed estensioni del nostro framework.

English

Supervised fine-tuning (SFT) is widely used to align large language models (LLMs) with information extraction (IE) tasks, such as named entity recognition (NER). However, annotating such fine-grained labels and training domain-specific models is costly. Existing works typically train a unified model across multiple domains, but such approaches lack adaptation and scalability since not all training data benefits target domains and scaling trained models remains challenging. We propose the SaM framework, which dynamically Selects and Merges expert models at inference time. Specifically, for a target domain, we select domain-specific experts pre-trained on existing domains based on (i) domain similarity to the target domain and (ii) performance on sampled instances, respectively. The experts are then merged to create task-specific models optimized for the target domain. By dynamically merging experts beneficial to target domains, we improve generalization across various domains without extra training. Additionally, experts can be added or removed conveniently, leading to great scalability. Extensive experiments on multiple benchmarks demonstrate our framework's effectiveness, which outperforms the unified model by an average of 10%. We further provide insights into potential improvements, practical experience, and extensions of our framework.

Selezione e Fusione: Verso un Riconoscimento di Entità Nominate Adattabile e Scalabile con Modelli Linguistici di Grandi Dimensioni

Selecting and Merging: Towards Adaptable and Scalable Named Entity Recognition with Large Language Models

Abstract

Support