ChatPaper.aiChatPaper

UniversalNER: 개방형 명명 개체 인식을 위한 대규모 언어 모델의 타겟팅된 지식 증류

UniversalNER: Targeted Distillation from Large Language Models for Open Named Entity Recognition

August 7, 2023
저자: Wenxuan Zhou, Sheng Zhang, Yu Gu, Muhao Chen, Hoifung Poon
cs.AI

초록

대규모 언어 모델(LLM)은 임의의 개체와 관계를 이해하는 등 놀라운 일반화 능력을 보여주고 있습니다. 명령어 튜닝(instruction tuning)은 LLM을 Alpaca나 Vicuna와 같은 더 비용 효율적인 모델로 정제하는 데 효과적임이 입증되었습니다. 그러나 이러한 학생 모델(student model)은 여전히 다운스트림 애플리케이션에서 원본 LLM에 비해 큰 격차를 보입니다. 본 논문에서는 특정 임무에 초점을 맞춘 명령어 튜닝을 통한 표적 정제(targeted distillation)를 탐구하여, 개방형 정보 추출(open information extraction)과 같은 광범위한 애플리케이션 클래스에서 뛰어난 성능을 발휘할 수 있는 학생 모델을 훈련하는 방법을 연구합니다. 사례 연구로 개체명 인식(NER)을 사용하여, ChatGPT를 개방형 NER을 위한 훨씬 더 작은 UniversalNER 모델로 정제하는 방법을 보여줍니다. 평가를 위해, 우리는 생물의학, 프로그래밍, 소셜 미디어, 법률, 금융 등 9개의 다양한 도메인에 걸친 43개의 데이터셋으로 구성된 역대 최대 규모의 NER 벤치마크를 구축했습니다. 어떠한 직접적인 지도 학습도 사용하지 않고, UniversalNER은 수만 개의 개체 유형에 걸쳐 놀라운 NER 정확도를 달성하며, Alpaca와 Vicuna와 같은 일반 명령어 튜닝 모델을 평균 30점 이상의 절대 F1 점수 차이로 능가했습니다. 매우 적은 수의 파라미터로, UniversalNER은 ChatGPT의 임의의 개체 유형 인식 능력을 획득할 뿐만 아니라, 평균 7-9점의 절대 F1 점수 차이로 ChatGPT의 NER 정확도를 능가했습니다. 특히, UniversalNER은 지도 학습된 NER 예제를 사용하는 InstructUIE와 같은 최신 다중 작업 명령어 튜닝 시스템도 큰 격차로 능가했습니다. 또한, 우리는 정제 접근법의 다양한 구성 요소의 영향을 평가하기 위해 철저한 제거 연구(ablation study)를 수행했습니다. 향후 표적 정제 연구를 촉진하기 위해 정제 레시피, 데이터 및 UniversalNER 모델을 공개할 예정입니다.
English
Large language models (LLMs) have demonstrated remarkable generalizability, such as understanding arbitrary entities and relations. Instruction tuning has proven effective for distilling LLMs into more cost-efficient models such as Alpaca and Vicuna. Yet such student models still trail the original LLMs by large margins in downstream applications. In this paper, we explore targeted distillation with mission-focused instruction tuning to train student models that can excel in a broad application class such as open information extraction. Using named entity recognition (NER) for case study, we show how ChatGPT can be distilled into much smaller UniversalNER models for open NER. For evaluation, we assemble the largest NER benchmark to date, comprising 43 datasets across 9 diverse domains such as biomedicine, programming, social media, law, finance. Without using any direct supervision, UniversalNER attains remarkable NER accuracy across tens of thousands of entity types, outperforming general instruction-tuned models such as Alpaca and Vicuna by over 30 absolute F1 points in average. With a tiny fraction of parameters, UniversalNER not only acquires ChatGPT's capability in recognizing arbitrary entity types, but also outperforms its NER accuracy by 7-9 absolute F1 points in average. Remarkably, UniversalNER even outperforms by a large margin state-of-the-art multi-task instruction-tuned systems such as InstructUIE, which uses supervised NER examples. We also conduct thorough ablation studies to assess the impact of various components in our distillation approach. We will release the distillation recipe, data, and UniversalNER models to facilitate future research on targeted distillation.
PDF232December 15, 2024