SciPrompt:科学トピックの細かいカテゴリ分類のための知識拡張型プロンプティング
SciPrompt: Knowledge-augmented Prompting for Fine-grained Categorization of Scientific Topics
October 2, 2024
著者: Zhiwen You, Kanyao Han, Haotian Zhu, Bertram Ludäscher, Jana Diesner
cs.AI
要旨
プロンプトベースのファインチューニングは、テキスト分類を含むさまざまなタスクにおいて、事前学習された言語モデルにエンコードされた情報を引き出すための重要な手法となっています。マルチクラス分類タスクにおいて、低リソースの状況下でのプロンプトベースのファインチューニングは、完全なファインチューニング手法と同等の性能レベルを達成しています。従来の研究では、クラフトされたプロンプトテンプレートやバーバライザを使用して、ラベル用語空間からクラス空間へのマッピングを行い、分類問題をマスクされた言語モデリングタスクとして解決してきました。しかし、ドメイン間およびファイングレインドなプロンプトベースのファインチューニングにおいて、自動的に拡張されたバーバライザを用いた研究は未だに未開拓の領域です。これは、バーバライザ用のドメインラベル用語を手動で選択する難しさとコストが原因であり、これにはドメイン専門知識を持つ人間が必要とされます。この課題に対処するために、我々はSciPromptを導入します。これは、低リソースのテキスト分類タスクに関連する科学的トピックに自動的に関連する用語を取得するために設計されたフレームワークです。このために、科学文献の文脈内で意味的に関連し、特定のドメインに属するラベル用語をバーバライザの拡張に選択します。さらに、我々は、新しいバーバライゼーション戦略を提案します。これは、相関スコアを追加の重みとして使用して、モデルチューニング中に言語モデルの予測性能を向上させます。我々の手法は、特にファイングレインドおよび新興の科学的トピックの分類において、少数およびゼロショットの設定下で、科学的テキスト分類タスクにおいて、最先端のプロンプトベースのファインチューニング手法を凌駕しています。
English
Prompt-based fine-tuning has become an essential method for eliciting
information encoded in pre-trained language models for a variety of tasks,
including text classification. For multi-class classification tasks,
prompt-based fine-tuning under low-resource scenarios has resulted in
performance levels comparable to those of fully fine-tuning methods. Previous
studies have used crafted prompt templates and verbalizers, mapping from the
label terms space to the class space, to solve the classification problem as a
masked language modeling task. However, cross-domain and fine-grained
prompt-based fine-tuning with an automatically enriched verbalizer remains
unexplored, mainly due to the difficulty and costs of manually selecting domain
label terms for the verbalizer, which requires humans with domain expertise. To
address this challenge, we introduce SciPrompt, a framework designed to
automatically retrieve scientific topic-related terms for low-resource text
classification tasks. To this end, we select semantically correlated and
domain-specific label terms within the context of scientific literature for
verbalizer augmentation. Furthermore, we propose a new verbalization strategy
that uses correlation scores as additional weights to enhance the prediction
performance of the language model during model tuning. Our method outperforms
state-of-the-art, prompt-based fine-tuning methods on scientific text
classification tasks under few and zero-shot settings, especially in
classifying fine-grained and emerging scientific topics.Summary
AI-Generated Summary