Seleção e Fusão: Rumo ao Reconhecimento de Entidades Nomeadas Adaptável e Escalável com Modelos de Linguagem de Grande Porte

Resumo

O ajuste fino supervisionado (SFT) é amplamente utilizado para alinhar modelos de linguagem de grande escala (LLMs) com tarefas de extração de informação (IE), como o reconhecimento de entidades nomeadas (NER). No entanto, anotar rótulos tão refinados e treinar modelos específicos para domínios é custoso. Trabalhos existentes geralmente treinam um modelo unificado em múltiplos domínios, mas tais abordagens carecem de adaptação e escalabilidade, já que nem todos os dados de treinamento beneficiam os domínios-alvo, e a escalabilidade dos modelos treinados continua sendo um desafio. Propomos o framework SaM, que seleciona e mescla dinamicamente modelos especialistas durante a inferência. Especificamente, para um domínio-alvo, selecionamos especialistas específicos de domínio pré-treinados em domínios existentes com base em (i) similaridade de domínio com o domínio-alvo e (ii) desempenho em instâncias amostradas, respectivamente. Os especialistas são então mesclados para criar modelos específicos para a tarefa, otimizados para o domínio-alvo. Ao mesclar dinamicamente especialistas benéficos para os domínios-alvo, melhoramos a generalização em vários domínios sem treinamento adicional. Além disso, especialistas podem ser adicionados ou removidos de forma conveniente, resultando em grande escalabilidade. Experimentos extensivos em múltiplos benchmarks demonstram a eficácia do nosso framework, que supera o modelo unificado em média em 10%. Também fornecemos insights sobre possíveis melhorias, experiência prática e extensões do nosso framework.

English

Supervised fine-tuning (SFT) is widely used to align large language models (LLMs) with information extraction (IE) tasks, such as named entity recognition (NER). However, annotating such fine-grained labels and training domain-specific models is costly. Existing works typically train a unified model across multiple domains, but such approaches lack adaptation and scalability since not all training data benefits target domains and scaling trained models remains challenging. We propose the SaM framework, which dynamically Selects and Merges expert models at inference time. Specifically, for a target domain, we select domain-specific experts pre-trained on existing domains based on (i) domain similarity to the target domain and (ii) performance on sampled instances, respectively. The experts are then merged to create task-specific models optimized for the target domain. By dynamically merging experts beneficial to target domains, we improve generalization across various domains without extra training. Additionally, experts can be added or removed conveniently, leading to great scalability. Extensive experiments on multiple benchmarks demonstrate our framework's effectiveness, which outperforms the unified model by an average of 10%. We further provide insights into potential improvements, practical experience, and extensions of our framework.

Seleção e Fusão: Rumo ao Reconhecimento de Entidades Nomeadas Adaptável e Escalável com Modelos de Linguagem de Grande Porte

Selecting and Merging: Towards Adaptable and Scalable Named Entity Recognition with Large Language Models

Resumo

Support