Selección y Fusión: Hacia un Reconocimiento de Entidades Nombradas Adaptable y Escalable con Modelos de Lenguaje de Gran Escala
Selecting and Merging: Towards Adaptable and Scalable Named Entity Recognition with Large Language Models
June 28, 2025
Autores: Zhuojun Ding, Wei Wei, Chenghao Fan
cs.AI
Resumen
El ajuste fino supervisado (SFT, por sus siglas en inglés) se utiliza ampliamente para alinear modelos de lenguaje de gran escala (LLMs) con tareas de extracción de información (IE), como el reconocimiento de entidades nombradas (NER). Sin embargo, anotar etiquetas tan detalladas y entrenar modelos específicos para dominios resulta costoso. Los trabajos existentes suelen entrenar un modelo unificado en múltiples dominios, pero estos enfoques carecen de adaptación y escalabilidad, ya que no todos los datos de entrenamiento benefician a los dominios objetivo y escalar los modelos entrenados sigue siendo un desafío. Proponemos el marco SaM, que selecciona y fusiona dinámicamente modelos expertos durante la inferencia. Específicamente, para un dominio objetivo, seleccionamos expertos específicos del dominio preentrenados en dominios existentes basándonos en (i) la similitud del dominio con el dominio objetivo y (ii) el rendimiento en instancias muestreadas, respectivamente. Luego, los expertos se fusionan para crear modelos específicos de la tarea optimizados para el dominio objetivo. Al fusionar dinámicamente expertos beneficiosos para los dominios objetivo, mejoramos la generalización en varios dominios sin necesidad de entrenamiento adicional. Además, los expertos pueden agregarse o eliminarse convenientemente, lo que conduce a una gran escalabilidad. Experimentos exhaustivos en múltiples benchmarks demuestran la efectividad de nuestro marco, que supera al modelo unificado en un promedio del 10%. Además, ofrecemos ideas sobre posibles mejoras, experiencia práctica y extensiones de nuestro marco.
English
Supervised fine-tuning (SFT) is widely used to align large language models
(LLMs) with information extraction (IE) tasks, such as named entity recognition
(NER). However, annotating such fine-grained labels and training
domain-specific models is costly. Existing works typically train a unified
model across multiple domains, but such approaches lack adaptation and
scalability since not all training data benefits target domains and scaling
trained models remains challenging. We propose the SaM framework, which
dynamically Selects and Merges expert models at inference time. Specifically,
for a target domain, we select domain-specific experts pre-trained on existing
domains based on (i) domain similarity to the target domain and (ii)
performance on sampled instances, respectively. The experts are then merged to
create task-specific models optimized for the target domain. By dynamically
merging experts beneficial to target domains, we improve generalization across
various domains without extra training. Additionally, experts can be added or
removed conveniently, leading to great scalability. Extensive experiments on
multiple benchmarks demonstrate our framework's effectiveness, which
outperforms the unified model by an average of 10%. We further provide insights
into potential improvements, practical experience, and extensions of our
framework.