SciPrompt: Promoción aumentada del conocimiento para la categorización detallada de temas científicos
SciPrompt: Knowledge-augmented Prompting for Fine-grained Categorization of Scientific Topics
October 2, 2024
Autores: Zhiwen You, Kanyao Han, Haotian Zhu, Bertram Ludäscher, Jana Diesner
cs.AI
Resumen
El ajuste fino basado en indicaciones se ha convertido en un método esencial para extraer información codificada en modelos de lenguaje pre-entrenados para una variedad de tareas, incluida la clasificación de texto. Para tareas de clasificación multi-clase, el ajuste fino basado en indicaciones en escenarios de recursos limitados ha dado como resultado niveles de rendimiento comparables a los de los métodos de ajuste fino completo. Estudios previos han utilizado plantillas de indicaciones elaboradas y verbalizadores, mapeando del espacio de términos de etiqueta al espacio de clase, para resolver el problema de clasificación como una tarea de modelado de lenguaje enmascarado. Sin embargo, el ajuste fino basado en indicaciones cruzadas y detalladas con un verbalizador enriquecido automáticamente permanece inexplorado, principalmente debido a la dificultad y costos de seleccionar manualmente términos de etiqueta de dominio para el verbalizador, lo cual requiere humanos con experiencia en el dominio. Para abordar este desafío, presentamos SciPrompt, un marco diseñado para recuperar automáticamente términos relacionados con temas científicos para tareas de clasificación de texto con recursos limitados. Con este fin, seleccionamos términos de etiqueta semánticamente correlacionados y específicos del dominio dentro del contexto de la literatura científica para la ampliación del verbalizador. Además, proponemos una nueva estrategia de verbalización que utiliza puntajes de correlación como pesos adicionales para mejorar el rendimiento de predicción del modelo de lenguaje durante el ajuste del modelo. Nuestro método supera a los métodos de ajuste fino basados en indicaciones de última generación en tareas de clasificación de texto científico en configuraciones de pocos y cero disparos, especialmente en la clasificación de temas científicos detallados y emergentes.
English
Prompt-based fine-tuning has become an essential method for eliciting
information encoded in pre-trained language models for a variety of tasks,
including text classification. For multi-class classification tasks,
prompt-based fine-tuning under low-resource scenarios has resulted in
performance levels comparable to those of fully fine-tuning methods. Previous
studies have used crafted prompt templates and verbalizers, mapping from the
label terms space to the class space, to solve the classification problem as a
masked language modeling task. However, cross-domain and fine-grained
prompt-based fine-tuning with an automatically enriched verbalizer remains
unexplored, mainly due to the difficulty and costs of manually selecting domain
label terms for the verbalizer, which requires humans with domain expertise. To
address this challenge, we introduce SciPrompt, a framework designed to
automatically retrieve scientific topic-related terms for low-resource text
classification tasks. To this end, we select semantically correlated and
domain-specific label terms within the context of scientific literature for
verbalizer augmentation. Furthermore, we propose a new verbalization strategy
that uses correlation scores as additional weights to enhance the prediction
performance of the language model during model tuning. Our method outperforms
state-of-the-art, prompt-based fine-tuning methods on scientific text
classification tasks under few and zero-shot settings, especially in
classifying fine-grained and emerging scientific topics.Summary
AI-Generated Summary