UniversalNER : Distillation ciblée à partir de grands modèles de langage pour la reconnaissance d'entités nommées ouverte
UniversalNER: Targeted Distillation from Large Language Models for Open Named Entity Recognition
August 7, 2023
papers.authors: Wenxuan Zhou, Sheng Zhang, Yu Gu, Muhao Chen, Hoifung Poon
cs.AI
papers.abstract
Les grands modèles de langage (LLMs) ont démontré une généralisabilité remarquable, notamment dans la compréhension d'entités et de relations arbitraires. L'ajustement par instruction s'est avéré efficace pour distiller les LLMs en modèles plus économes en ressources, tels qu'Alpaca et Vicuna. Cependant, ces modèles étudiants restent largement en retrait par rapport aux LLMs originaux dans les applications en aval. Dans cet article, nous explorons la distillation ciblée avec un ajustement par instruction axé sur une mission spécifique, afin d'entraîner des modèles étudiants capables d'exceller dans une large classe d'applications, comme l'extraction ouverte d'informations. En utilisant la reconnaissance d'entités nommées (NER) comme étude de cas, nous montrons comment ChatGPT peut être distillé en modèles UniversalNER bien plus petits pour la NER ouverte. Pour l'évaluation, nous avons assemblé le plus grand benchmark NER à ce jour, comprenant 43 jeux de données couvrant 9 domaines variés tels que la biomédecine, la programmation, les réseaux sociaux, le droit et la finance. Sans utiliser aucune supervision directe, UniversalNER atteint une précision NER remarquable sur des dizaines de milliers de types d'entités, surpassant les modèles ajustés par instruction généraux comme Alpaca et Vicuna de plus de 30 points F1 absolus en moyenne. Avec une fraction infime de paramètres, UniversalNER acquiert non seulement la capacité de ChatGPT à reconnaître des types d'entités arbitraires, mais dépasse également sa précision NER de 7 à 9 points F1 absolus en moyenne. De manière notable, UniversalNER surpasse de loin les systèmes multi-tâches ajustés par instruction de pointe comme InstructUIE, qui utilise des exemples NER supervisés. Nous menons également des études d'ablation approfondies pour évaluer l'impact des différents composants de notre approche de distillation. Nous publierons la recette de distillation, les données et les modèles UniversalNER pour faciliter les recherches futures sur la distillation ciblée.
English
Large language models (LLMs) have demonstrated remarkable generalizability,
such as understanding arbitrary entities and relations. Instruction tuning has
proven effective for distilling LLMs into more cost-efficient models such as
Alpaca and Vicuna. Yet such student models still trail the original LLMs by
large margins in downstream applications. In this paper, we explore targeted
distillation with mission-focused instruction tuning to train student models
that can excel in a broad application class such as open information
extraction. Using named entity recognition (NER) for case study, we show how
ChatGPT can be distilled into much smaller UniversalNER models for open NER.
For evaluation, we assemble the largest NER benchmark to date, comprising 43
datasets across 9 diverse domains such as biomedicine, programming, social
media, law, finance. Without using any direct supervision, UniversalNER attains
remarkable NER accuracy across tens of thousands of entity types, outperforming
general instruction-tuned models such as Alpaca and Vicuna by over 30 absolute
F1 points in average. With a tiny fraction of parameters, UniversalNER not only
acquires ChatGPT's capability in recognizing arbitrary entity types, but also
outperforms its NER accuracy by 7-9 absolute F1 points in average. Remarkably,
UniversalNER even outperforms by a large margin state-of-the-art multi-task
instruction-tuned systems such as InstructUIE, which uses supervised NER
examples. We also conduct thorough ablation studies to assess the impact of
various components in our distillation approach. We will release the
distillation recipe, data, and UniversalNER models to facilitate future
research on targeted distillation.