UniversalNER: Destilación Dirigida de Modelos de Lenguaje a Gran Escala para el Reconocimiento Abierto de Entidades Nombradas

Resumen

Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han demostrado una generalización notable, como la capacidad de comprender entidades y relaciones arbitrarias. El ajuste por instrucciones ha demostrado ser efectivo para destilar LLMs en modelos más eficientes en costos, como Alpaca y Vicuna. Sin embargo, estos modelos derivados aún se quedan muy por detrás de los LLMs originales en aplicaciones posteriores. En este artículo, exploramos la destilación dirigida con ajuste por instrucciones enfocado en misiones específicas para entrenar modelos derivados que puedan sobresalir en una clase amplia de aplicaciones, como la extracción abierta de información. Utilizando el reconocimiento de entidades nombradas (NER) como estudio de caso, mostramos cómo ChatGPT puede ser destilado en modelos UniversalNER mucho más pequeños para NER abierto. Para la evaluación, hemos reunido el mayor conjunto de pruebas de NER hasta la fecha, que comprende 43 conjuntos de datos en 9 dominios diversos, como biomedicina, programación, redes sociales, derecho y finanzas. Sin utilizar supervisión directa, UniversalNER alcanza una precisión notable en NER a través de decenas de miles de tipos de entidades, superando a modelos ajustados por instrucciones generales como Alpaca y Vicuna por más de 30 puntos F1 absolutos en promedio. Con una fracción mínima de parámetros, UniversalNER no solo adquiere la capacidad de ChatGPT para reconocer tipos de entidades arbitrarios, sino que también supera su precisión en NER por 7-9 puntos F1 absolutos en promedio. Notablemente, UniversalNER incluso supera por un amplio margen a sistemas de última generación ajustados por instrucciones multitarea, como InstructUIE, que utiliza ejemplos supervisados de NER. También realizamos estudios de ablación exhaustivos para evaluar el impacto de varios componentes en nuestro enfoque de destilación. Publicaremos la receta de destilación, los datos y los modelos UniversalNER para facilitar futuras investigaciones sobre destilación dirigida.

English

Large language models (LLMs) have demonstrated remarkable generalizability, such as understanding arbitrary entities and relations. Instruction tuning has proven effective for distilling LLMs into more cost-efficient models such as Alpaca and Vicuna. Yet such student models still trail the original LLMs by large margins in downstream applications. In this paper, we explore targeted distillation with mission-focused instruction tuning to train student models that can excel in a broad application class such as open information extraction. Using named entity recognition (NER) for case study, we show how ChatGPT can be distilled into much smaller UniversalNER models for open NER. For evaluation, we assemble the largest NER benchmark to date, comprising 43 datasets across 9 diverse domains such as biomedicine, programming, social media, law, finance. Without using any direct supervision, UniversalNER attains remarkable NER accuracy across tens of thousands of entity types, outperforming general instruction-tuned models such as Alpaca and Vicuna by over 30 absolute F1 points in average. With a tiny fraction of parameters, UniversalNER not only acquires ChatGPT's capability in recognizing arbitrary entity types, but also outperforms its NER accuracy by 7-9 absolute F1 points in average. Remarkably, UniversalNER even outperforms by a large margin state-of-the-art multi-task instruction-tuned systems such as InstructUIE, which uses supervised NER examples. We also conduct thorough ablation studies to assess the impact of various components in our distillation approach. We will release the distillation recipe, data, and UniversalNER models to facilitate future research on targeted distillation.

UniversalNER: Destilación Dirigida de Modelos de Lenguaje a Gran Escala para el Reconocimiento Abierto de Entidades Nombradas

UniversalNER: Targeted Distillation from Large Language Models for Open Named Entity Recognition

Resumen

Support