UniversalNER: Destilación Dirigida de Modelos de Lenguaje a Gran Escala para el Reconocimiento Abierto de Entidades Nombradas
UniversalNER: Targeted Distillation from Large Language Models for Open Named Entity Recognition
August 7, 2023
Autores: Wenxuan Zhou, Sheng Zhang, Yu Gu, Muhao Chen, Hoifung Poon
cs.AI
Resumen
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han demostrado una generalización notable, como la capacidad de comprender entidades y relaciones arbitrarias. El ajuste por instrucciones ha demostrado ser efectivo para destilar LLMs en modelos más eficientes en costos, como Alpaca y Vicuna. Sin embargo, estos modelos derivados aún se quedan muy por detrás de los LLMs originales en aplicaciones posteriores. En este artículo, exploramos la destilación dirigida con ajuste por instrucciones enfocado en misiones específicas para entrenar modelos derivados que puedan sobresalir en una clase amplia de aplicaciones, como la extracción abierta de información. Utilizando el reconocimiento de entidades nombradas (NER) como estudio de caso, mostramos cómo ChatGPT puede ser destilado en modelos UniversalNER mucho más pequeños para NER abierto. Para la evaluación, hemos reunido el mayor conjunto de pruebas de NER hasta la fecha, que comprende 43 conjuntos de datos en 9 dominios diversos, como biomedicina, programación, redes sociales, derecho y finanzas. Sin utilizar supervisión directa, UniversalNER alcanza una precisión notable en NER a través de decenas de miles de tipos de entidades, superando a modelos ajustados por instrucciones generales como Alpaca y Vicuna por más de 30 puntos F1 absolutos en promedio. Con una fracción mínima de parámetros, UniversalNER no solo adquiere la capacidad de ChatGPT para reconocer tipos de entidades arbitrarios, sino que también supera su precisión en NER por 7-9 puntos F1 absolutos en promedio. Notablemente, UniversalNER incluso supera por un amplio margen a sistemas de última generación ajustados por instrucciones multitarea, como InstructUIE, que utiliza ejemplos supervisados de NER. También realizamos estudios de ablación exhaustivos para evaluar el impacto de varios componentes en nuestro enfoque de destilación. Publicaremos la receta de destilación, los datos y los modelos UniversalNER para facilitar futuras investigaciones sobre destilación dirigida.
English
Large language models (LLMs) have demonstrated remarkable generalizability,
such as understanding arbitrary entities and relations. Instruction tuning has
proven effective for distilling LLMs into more cost-efficient models such as
Alpaca and Vicuna. Yet such student models still trail the original LLMs by
large margins in downstream applications. In this paper, we explore targeted
distillation with mission-focused instruction tuning to train student models
that can excel in a broad application class such as open information
extraction. Using named entity recognition (NER) for case study, we show how
ChatGPT can be distilled into much smaller UniversalNER models for open NER.
For evaluation, we assemble the largest NER benchmark to date, comprising 43
datasets across 9 diverse domains such as biomedicine, programming, social
media, law, finance. Without using any direct supervision, UniversalNER attains
remarkable NER accuracy across tens of thousands of entity types, outperforming
general instruction-tuned models such as Alpaca and Vicuna by over 30 absolute
F1 points in average. With a tiny fraction of parameters, UniversalNER not only
acquires ChatGPT's capability in recognizing arbitrary entity types, but also
outperforms its NER accuracy by 7-9 absolute F1 points in average. Remarkably,
UniversalNER even outperforms by a large margin state-of-the-art multi-task
instruction-tuned systems such as InstructUIE, which uses supervised NER
examples. We also conduct thorough ablation studies to assess the impact of
various components in our distillation approach. We will release the
distillation recipe, data, and UniversalNER models to facilitate future
research on targeted distillation.