ChatPaper.aiChatPaper

Selección y Fusión: Hacia un Reconocimiento de Entidades Nombradas Adaptable y Escalable con Modelos de Lenguaje de Gran Escala

Selecting and Merging: Towards Adaptable and Scalable Named Entity Recognition with Large Language Models

June 28, 2025
Autores: Zhuojun Ding, Wei Wei, Chenghao Fan
cs.AI

Resumen

El ajuste fino supervisado (SFT, por sus siglas en inglés) se utiliza ampliamente para alinear modelos de lenguaje de gran escala (LLMs) con tareas de extracción de información (IE), como el reconocimiento de entidades nombradas (NER). Sin embargo, anotar etiquetas tan detalladas y entrenar modelos específicos para dominios resulta costoso. Los trabajos existentes suelen entrenar un modelo unificado en múltiples dominios, pero estos enfoques carecen de adaptación y escalabilidad, ya que no todos los datos de entrenamiento benefician a los dominios objetivo y escalar los modelos entrenados sigue siendo un desafío. Proponemos el marco SaM, que selecciona y fusiona dinámicamente modelos expertos durante la inferencia. Específicamente, para un dominio objetivo, seleccionamos expertos específicos del dominio preentrenados en dominios existentes basándonos en (i) la similitud del dominio con el dominio objetivo y (ii) el rendimiento en instancias muestreadas, respectivamente. Luego, los expertos se fusionan para crear modelos específicos de la tarea optimizados para el dominio objetivo. Al fusionar dinámicamente expertos beneficiosos para los dominios objetivo, mejoramos la generalización en varios dominios sin necesidad de entrenamiento adicional. Además, los expertos pueden agregarse o eliminarse convenientemente, lo que conduce a una gran escalabilidad. Experimentos exhaustivos en múltiples benchmarks demuestran la efectividad de nuestro marco, que supera al modelo unificado en un promedio del 10%. Además, ofrecemos ideas sobre posibles mejoras, experiencia práctica y extensiones de nuestro marco.
English
Supervised fine-tuning (SFT) is widely used to align large language models (LLMs) with information extraction (IE) tasks, such as named entity recognition (NER). However, annotating such fine-grained labels and training domain-specific models is costly. Existing works typically train a unified model across multiple domains, but such approaches lack adaptation and scalability since not all training data benefits target domains and scaling trained models remains challenging. We propose the SaM framework, which dynamically Selects and Merges expert models at inference time. Specifically, for a target domain, we select domain-specific experts pre-trained on existing domains based on (i) domain similarity to the target domain and (ii) performance on sampled instances, respectively. The experts are then merged to create task-specific models optimized for the target domain. By dynamically merging experts beneficial to target domains, we improve generalization across various domains without extra training. Additionally, experts can be added or removed conveniently, leading to great scalability. Extensive experiments on multiple benchmarks demonstrate our framework's effectiveness, which outperforms the unified model by an average of 10%. We further provide insights into potential improvements, practical experience, and extensions of our framework.
PDF41July 4, 2025