ChatPaper.aiChatPaper

SciPrompt : Guidage augmenté par la connaissance pour la catégorisation fine des sujets scientifiques

SciPrompt: Knowledge-augmented Prompting for Fine-grained Categorization of Scientific Topics

October 2, 2024
Auteurs: Zhiwen You, Kanyao Han, Haotian Zhu, Bertram Ludäscher, Jana Diesner
cs.AI

Résumé

Le fine-tuning basé sur des prompts est devenu une méthode essentielle pour extraire des informations encodées dans des modèles de langage pré-entraînés pour une variété de tâches, y compris la classification de texte. Pour les tâches de classification multi-classe, le fine-tuning basé sur des prompts dans des scénarios à faibles ressources a conduit à des niveaux de performance comparables à ceux des méthodes de fine-tuning complet. Des études antérieures ont utilisé des modèles de prompts élaborés et des verbaliseurs, faisant correspondre l'espace des termes d'étiquette à l'espace de classe, pour résoudre le problème de classification en tant que tâche de modélisation de langage masqué. Cependant, le fine-tuning basé sur des prompts croisés et raffiné avec un verbaliseur automatiquement enrichi reste inexploré, principalement en raison de la difficulté et des coûts de sélection manuelle des termes d'étiquette de domaine pour le verbaliseur, nécessitant des humains avec une expertise de domaine. Pour relever ce défi, nous introduisons SciPrompt, un cadre conçu pour récupérer automatiquement des termes liés aux sujets scientifiques pour des tâches de classification de texte à faibles ressources. À cette fin, nous sélectionnons des termes d'étiquette sémantiquement corrélés et spécifiques au domaine dans le contexte de la littérature scientifique pour l'augmentation du verbaliseur. De plus, nous proposons une nouvelle stratégie de verbalisation qui utilise des scores de corrélation comme poids supplémentaires pour améliorer les performances de prédiction du modèle de langage lors du réglage du modèle. Notre méthode surpasse les méthodes de fine-tuning basées sur des prompts de pointe sur des tâches de classification de texte scientifique dans des paramètres à faible et zéro-shot, en particulier dans la classification de sujets scientifiques fins et émergents.
English
Prompt-based fine-tuning has become an essential method for eliciting information encoded in pre-trained language models for a variety of tasks, including text classification. For multi-class classification tasks, prompt-based fine-tuning under low-resource scenarios has resulted in performance levels comparable to those of fully fine-tuning methods. Previous studies have used crafted prompt templates and verbalizers, mapping from the label terms space to the class space, to solve the classification problem as a masked language modeling task. However, cross-domain and fine-grained prompt-based fine-tuning with an automatically enriched verbalizer remains unexplored, mainly due to the difficulty and costs of manually selecting domain label terms for the verbalizer, which requires humans with domain expertise. To address this challenge, we introduce SciPrompt, a framework designed to automatically retrieve scientific topic-related terms for low-resource text classification tasks. To this end, we select semantically correlated and domain-specific label terms within the context of scientific literature for verbalizer augmentation. Furthermore, we propose a new verbalization strategy that uses correlation scores as additional weights to enhance the prediction performance of the language model during model tuning. Our method outperforms state-of-the-art, prompt-based fine-tuning methods on scientific text classification tasks under few and zero-shot settings, especially in classifying fine-grained and emerging scientific topics.

Summary

AI-Generated Summary

PDF43November 16, 2024