SciPrompt: Prompting com aumento de conhecimento para categorização detalhada de tópicos científicos.
SciPrompt: Knowledge-augmented Prompting for Fine-grained Categorization of Scientific Topics
October 2, 2024
Autores: Zhiwen You, Kanyao Han, Haotian Zhu, Bertram Ludäscher, Jana Diesner
cs.AI
Resumo
A afinação fina baseada em prompt tornou-se um método essencial para extrair informações codificadas em modelos de linguagem pré-treinados para uma variedade de tarefas, incluindo classificação de texto. Para tarefas de classificação multi-classe, a afinação fina baseada em prompt em cenários de baixos recursos resultou em níveis de desempenho comparáveis aos métodos de afinação completa. Estudos anteriores têm utilizado modelos de prompt elaborados e verbalizadores, mapeando do espaço de termos de rótulo para o espaço de classe, para resolver o problema de classificação como uma tarefa de modelagem de linguagem mascarada. No entanto, a afinação fina baseada em prompt de domínio cruzado e refinado com um verbalizador automaticamente enriquecido permanece inexplorada, principalmente devido à dificuldade e custos de selecionar manualmente termos de rótulo de domínio para o verbalizador, o que requer humanos com expertise no domínio. Para enfrentar esse desafio, apresentamos o SciPrompt, um framework projetado para recuperar automaticamente termos relacionados a tópicos científicos para tarefas de classificação de texto de baixos recursos. Para isso, selecionamos termos de rótulo semanticamente correlacionados e específicos do domínio no contexto da literatura científica para aprimoramento do verbalizador. Além disso, propomos uma nova estratégia de verbalização que utiliza pontuações de correlação como pesos adicionais para aprimorar o desempenho de previsão do modelo de linguagem durante a afinação do modelo. Nosso método supera os métodos de afinação fina baseados em prompt de última geração em tarefas de classificação de texto científico em configurações de poucos e zero-shot, especialmente na classificação de tópicos científicos refinados e emergentes.
English
Prompt-based fine-tuning has become an essential method for eliciting
information encoded in pre-trained language models for a variety of tasks,
including text classification. For multi-class classification tasks,
prompt-based fine-tuning under low-resource scenarios has resulted in
performance levels comparable to those of fully fine-tuning methods. Previous
studies have used crafted prompt templates and verbalizers, mapping from the
label terms space to the class space, to solve the classification problem as a
masked language modeling task. However, cross-domain and fine-grained
prompt-based fine-tuning with an automatically enriched verbalizer remains
unexplored, mainly due to the difficulty and costs of manually selecting domain
label terms for the verbalizer, which requires humans with domain expertise. To
address this challenge, we introduce SciPrompt, a framework designed to
automatically retrieve scientific topic-related terms for low-resource text
classification tasks. To this end, we select semantically correlated and
domain-specific label terms within the context of scientific literature for
verbalizer augmentation. Furthermore, we propose a new verbalization strategy
that uses correlation scores as additional weights to enhance the prediction
performance of the language model during model tuning. Our method outperforms
state-of-the-art, prompt-based fine-tuning methods on scientific text
classification tasks under few and zero-shot settings, especially in
classifying fine-grained and emerging scientific topics.