SciPrompt: Kennisverrijkte Prompting voor Fijnmazige Categorisatie van Wetenschappelijke Onderwerpen
SciPrompt: Knowledge-augmented Prompting for Fine-grained Categorization of Scientific Topics
October 2, 2024
Auteurs: Zhiwen You, Kanyao Han, Haotian Zhu, Bertram Ludäscher, Jana Diesner
cs.AI
Samenvatting
Prompt-gebaseerd fine-tunen is een essentiële methode geworden voor het onttrekken van informatie die gecodeerd is in vooraf getrainde taalmodellen voor verschillende taken, waaronder tekstclassificatie. Voor multi-class classificatietaken heeft prompt-gebaseerd fine-tunen in scenario's met weinig bronnen geleid tot prestatieniveaus die vergelijkbaar zijn met die van volledige fine-tuning methoden. Eerdere studies hebben op maat gemaakte prompt-sjablonen en verbalizers gebruikt, die van de labeltermenruimte naar de klasseruimte mappen, om het classificatieprobleem op te lossen als een taak voor gemaskeerd taalmodelleren. Echter, cross-domain en fijnkorrelig prompt-gebaseerd fine-tunen met een automatisch verrijkte verbalizer is nog onontgonnen terrein, voornamelijk vanwege de moeilijkheid en kosten van het handmatig selecteren van domeinlabeltermen voor de verbalizer, wat menselijke expertise op het gebied vereist. Om deze uitdaging aan te gaan, introduceren we SciPrompt, een raamwerk dat is ontworpen om automatisch wetenschappelijke onderwerpsgerelateerde termen op te halen voor tekstclassificatietaken met weinig bronnen. Hiervoor selecteren we semantisch gecorreleerde en domeinspecifieke labeltermen binnen de context van wetenschappelijke literatuur voor de verrijking van de verbalizer. Bovendien stellen we een nieuwe verbalisatiestrategie voor die correlatiescores gebruikt als extra gewichten om de voorspellingsprestaties van het taalmodel tijdens het afstemmen van het model te verbeteren. Onze methode overtreft state-of-the-art, prompt-gebaseerde fine-tuning methoden op wetenschappelijke tekstclassificatietaken in enkele en zero-shot instellingen, vooral bij het classificeren van fijnkorrelige en opkomende wetenschappelijke onderwerpen.
English
Prompt-based fine-tuning has become an essential method for eliciting
information encoded in pre-trained language models for a variety of tasks,
including text classification. For multi-class classification tasks,
prompt-based fine-tuning under low-resource scenarios has resulted in
performance levels comparable to those of fully fine-tuning methods. Previous
studies have used crafted prompt templates and verbalizers, mapping from the
label terms space to the class space, to solve the classification problem as a
masked language modeling task. However, cross-domain and fine-grained
prompt-based fine-tuning with an automatically enriched verbalizer remains
unexplored, mainly due to the difficulty and costs of manually selecting domain
label terms for the verbalizer, which requires humans with domain expertise. To
address this challenge, we introduce SciPrompt, a framework designed to
automatically retrieve scientific topic-related terms for low-resource text
classification tasks. To this end, we select semantically correlated and
domain-specific label terms within the context of scientific literature for
verbalizer augmentation. Furthermore, we propose a new verbalization strategy
that uses correlation scores as additional weights to enhance the prediction
performance of the language model during model tuning. Our method outperforms
state-of-the-art, prompt-based fine-tuning methods on scientific text
classification tasks under few and zero-shot settings, especially in
classifying fine-grained and emerging scientific topics.Summary
AI-Generated Summary