Toon Minder, Instruer Meer: Verrijk Prompts met Definities en Richtlijnen voor Zero-Shot NER
Show Less, Instruct More: Enriching Prompts with Definitions and Guidelines for Zero-Shot NER
July 1, 2024
Auteurs: Andrew Zamai, Andrea Zugarini, Leonardo Rigutini, Marco Ernandes, Marco Maggini
cs.AI
Samenvatting
Onlangs zijn er verschillende gespecialiseerde Large Language Models (LLMs) voor Named Entity Recognition (NER) verschenen die zijn afgestemd op instructies. In vergelijking met traditionele NER-benaderingen beschikken deze modellen over sterke generalisatiecapaciteiten. Bestaande LLMs richten zich voornamelijk op zero-shot NER in out-of-distributie scenario's, waarbij ze worden verfijnd op een groot aantal entiteitsklassen die vaak sterk of volledig overlappen met test sets. In dit werk stellen we in plaats daarvan SLIMER voor, een benadering die is ontworpen om nooit eerder geziene named entity tags aan te pakken door het model te instrueren met minder voorbeelden en door gebruik te maken van een prompt die is verrijkt met definities en richtlijnen. Experimenten tonen aan dat definities en richtlijnen betere prestaties opleveren, sneller en robuuster leren, vooral bij het labelen van onbekende Named Entities. Bovendien presteert SLIMER vergelijkbaar met state-of-the-art benaderingen in out-of-distributie zero-shot NER, terwijl het wordt getraind op een beperkte set tags.
English
Recently, several specialized instruction-tuned Large Language Models (LLMs)
for Named Entity Recognition (NER) have emerged. Compared to traditional NER
approaches, these models have strong generalization capabilities. Existing LLMs
mainly focus on zero-shot NER in out-of-domain distributions, being fine-tuned
on an extensive number of entity classes that often highly or completely
overlap with test sets. In this work instead, we propose SLIMER, an approach
designed to tackle never-seen-before named entity tags by instructing the model
on fewer examples, and by leveraging a prompt enriched with definition and
guidelines. Experiments demonstrate that definition and guidelines yield better
performance, faster and more robust learning, particularly when labelling
unseen Named Entities. Furthermore, SLIMER performs comparably to
state-of-the-art approaches in out-of-domain zero-shot NER, while being trained
on a reduced tag set.