SciPrompt: Wissensgestützte Aufforderungen zur Feinkategorisierung wissenschaftlicher Themen
SciPrompt: Knowledge-augmented Prompting for Fine-grained Categorization of Scientific Topics
October 2, 2024
Autoren: Zhiwen You, Kanyao Han, Haotian Zhu, Bertram Ludäscher, Jana Diesner
cs.AI
Zusammenfassung
Die feinabgestimmte Anpassung basierend auf Vorgaben ist zu einer wesentlichen Methode geworden, um Informationen abzurufen, die in vorab trainierten Sprachmodellen für eine Vielzahl von Aufgaben codiert sind, einschließlich Textklassifizierung. Für Multi-Class-Klassifizierungsaufgaben hat die feinabgestimmte Anpassung basierend auf Vorgaben unter Bedingungen mit geringen Ressourcen zu Leistungsstufen geführt, die mit denen vollständig feinabgestimmter Methoden vergleichbar sind. Frühere Studien haben speziell erstellte Vorgabevorlagen und Verbalisierer verwendet, die vom Begriffsbereich der Labels zum Klassenbereich abbilden, um das Klassifizierungsproblem als eine Aufgabe des maskierten Sprachmodellierens zu lösen. Jedoch bleibt die feinabgestimmte Anpassung basierend auf Vorgaben über Domänen hinweg und fein abgestuft mit einem automatisch angereicherten Verbalisierer weitgehend unerforscht, hauptsächlich aufgrund der Schwierigkeiten und Kosten bei der manuellen Auswahl von Domänenlabelbegriffen für den Verbalisierer, die menschliche Expertise in der Domäne erfordern. Um diese Herausforderung anzugehen, stellen wir SciPrompt vor, ein Framework, das entwickelt wurde, um automatisch wissenschaftliche themenbezogene Begriffe für Textklassifizierungsaufgaben mit geringen Ressourcen abzurufen. Zu diesem Zweck wählen wir semantisch korrelierte und domänenspezifische Labelbegriffe im Kontext wissenschaftlicher Literatur für die Verbalisierer-Erweiterung aus. Darüber hinaus schlagen wir eine neue Verbalisierungsstrategie vor, die Korrelationsscores als zusätzliche Gewichte verwendet, um die Vorhersageleistung des Sprachmodells während der Modellanpassung zu verbessern. Unsere Methode übertrifft state-of-the-art, auf Vorgaben basierende feinabgestimmte Methoden bei wissenschaftlichen Textklassifizierungsaufgaben unter wenigen und Zero-Shot-Einstellungen, insbesondere bei der Klassifizierung fein abgestufter und aufkommender wissenschaftlicher Themen.
English
Prompt-based fine-tuning has become an essential method for eliciting
information encoded in pre-trained language models for a variety of tasks,
including text classification. For multi-class classification tasks,
prompt-based fine-tuning under low-resource scenarios has resulted in
performance levels comparable to those of fully fine-tuning methods. Previous
studies have used crafted prompt templates and verbalizers, mapping from the
label terms space to the class space, to solve the classification problem as a
masked language modeling task. However, cross-domain and fine-grained
prompt-based fine-tuning with an automatically enriched verbalizer remains
unexplored, mainly due to the difficulty and costs of manually selecting domain
label terms for the verbalizer, which requires humans with domain expertise. To
address this challenge, we introduce SciPrompt, a framework designed to
automatically retrieve scientific topic-related terms for low-resource text
classification tasks. To this end, we select semantically correlated and
domain-specific label terms within the context of scientific literature for
verbalizer augmentation. Furthermore, we propose a new verbalization strategy
that uses correlation scores as additional weights to enhance the prediction
performance of the language model during model tuning. Our method outperforms
state-of-the-art, prompt-based fine-tuning methods on scientific text
classification tasks under few and zero-shot settings, especially in
classifying fine-grained and emerging scientific topics.Summary
AI-Generated Summary