SciPrompt: Prompt potenziato dalla conoscenza per la categorizzazione dettagliata dei temi scientifici
SciPrompt: Knowledge-augmented Prompting for Fine-grained Categorization of Scientific Topics
October 2, 2024
Autori: Zhiwen You, Kanyao Han, Haotian Zhu, Bertram Ludäscher, Jana Diesner
cs.AI
Abstract
Il fine-tuning basato su prompt è diventato un metodo essenziale per estrarre informazioni codificate nei modelli linguistici pre-addestrati per una varietà di compiti, inclusa la classificazione del testo. Per i compiti di classificazione multi-classe, il fine-tuning basato su prompt in scenari a bassa risorsa ha portato a livelli di prestazioni paragonabili a quelli dei metodi di fine-tuning completo. Studi precedenti hanno utilizzato modelli di prompt creati e verbalizzatori, mappando lo spazio dei termini di etichetta nello spazio delle classi, per risolvere il problema di classificazione come un compito di modellizzazione del linguaggio mascherato. Tuttavia, il fine-tuning basato su prompt cross-domain e fine-grained con un verbalizzatore arricchito automaticamente rimane inesplorato, principalmente a causa della difficoltà e dei costi di selezionare manualmente i termini di etichetta di dominio per il verbalizzatore, che richiede esperti del settore. Per affrontare questa sfida, presentiamo SciPrompt, un framework progettato per recuperare automaticamente termini correlati al tema scientifico per compiti di classificazione del testo a bassa risorsa. A tal fine, selezioniamo termini di etichetta semanticamente correlati e specifici del dominio nel contesto della letteratura scientifica per l'arricchimento del verbalizzatore. Inoltre, proponiamo una nuova strategia di verbalizzazione che utilizza punteggi di correlazione come pesi aggiuntivi per migliorare le prestazioni di previsione del modello linguistico durante il tuning del modello. Il nostro metodo supera i metodi di fine-tuning basati su prompt all'avanguardia nei compiti di classificazione del testo scientifico in impostazioni a pochi e zero colpi, specialmente nella classificazione di argomenti scientifici finemente dettagliati ed emergenti.
English
Prompt-based fine-tuning has become an essential method for eliciting
information encoded in pre-trained language models for a variety of tasks,
including text classification. For multi-class classification tasks,
prompt-based fine-tuning under low-resource scenarios has resulted in
performance levels comparable to those of fully fine-tuning methods. Previous
studies have used crafted prompt templates and verbalizers, mapping from the
label terms space to the class space, to solve the classification problem as a
masked language modeling task. However, cross-domain and fine-grained
prompt-based fine-tuning with an automatically enriched verbalizer remains
unexplored, mainly due to the difficulty and costs of manually selecting domain
label terms for the verbalizer, which requires humans with domain expertise. To
address this challenge, we introduce SciPrompt, a framework designed to
automatically retrieve scientific topic-related terms for low-resource text
classification tasks. To this end, we select semantically correlated and
domain-specific label terms within the context of scientific literature for
verbalizer augmentation. Furthermore, we propose a new verbalization strategy
that uses correlation scores as additional weights to enhance the prediction
performance of the language model during model tuning. Our method outperforms
state-of-the-art, prompt-based fine-tuning methods on scientific text
classification tasks under few and zero-shot settings, especially in
classifying fine-grained and emerging scientific topics.