Marco de trabajo LLM para clasificación de texto sin datos anotados manualmente: un estudio de caso en la clasificación de temas de noticias IPTC.
LLM Teacher-Student Framework for Text Classification With No Manually Annotated Data: A Case Study in IPTC News Topic Classification
November 29, 2024
Autores: Taja Kuzman, Nikola Ljubešić
cs.AI
Resumen
Con el creciente número de noticias disponibles en línea, clasificarlas por tema, independientemente del idioma en que estén escritas, se ha vuelto crucial para mejorar el acceso de los lectores a contenido relevante. Para abordar este desafío, proponemos un marco de trabajo profesor-alumno basado en grandes modelos de lenguaje (LLMs) para desarrollar modelos multilingües de clasificación de noticias de tamaño razonable sin necesidad de anotación manual de datos. El marco emplea un modelo Generativo Preentrenado Transformer (GPT) como modelo profesor para desarrollar un conjunto de datos de entrenamiento de Temas de Medios IPTC a través de la anotación automática de artículos de noticias en esloveno, croata, griego y catalán. El modelo profesor muestra un alto rendimiento de cero disparos en los cuatro idiomas. Su acuerdo con los anotadores humanos es comparable al de los propios anotadores humanos. Para mitigar las limitaciones computacionales asociadas con el procesamiento de millones de textos diarios, se ajustan modelos de estudiantes más pequeños similares a BERT en el conjunto de datos anotado por GPT. Estos modelos de estudiantes logran un alto rendimiento comparable al del modelo profesor. Además, exploramos el impacto del tamaño de los datos de entrenamiento en el rendimiento de los modelos de estudiantes e investigamos sus capacidades monolingües, multilingües y de cero disparos cruzados. Los hallazgos indican que los modelos de estudiantes pueden lograr un alto rendimiento con un número relativamente pequeño de instancias de entrenamiento, y demuestran fuertes habilidades de cero disparos cruzados lingüísticos. Finalmente, publicamos el clasificador de temas de noticias con mejor rendimiento, permitiendo la clasificación multilingüe con las categorías de nivel superior del esquema de Temas de Medios IPTC.
English
With the ever-increasing number of news stories available online, classifying
them by topic, regardless of the language they are written in, has become
crucial for enhancing readers' access to relevant content. To address this
challenge, we propose a teacher-student framework based on large language
models (LLMs) for developing multilingual news classification models of
reasonable size with no need for manual data annotation. The framework employs
a Generative Pretrained Transformer (GPT) model as the teacher model to develop
an IPTC Media Topic training dataset through automatic annotation of news
articles in Slovenian, Croatian, Greek, and Catalan. The teacher model exhibits
a high zero-shot performance on all four languages. Its agreement with human
annotators is comparable to that between the human annotators themselves. To
mitigate the computational limitations associated with the requirement of
processing millions of texts daily, smaller BERT-like student models are
fine-tuned on the GPT-annotated dataset. These student models achieve high
performance comparable to the teacher model. Furthermore, we explore the impact
of the training data size on the performance of the student models and
investigate their monolingual, multilingual and zero-shot cross-lingual
capabilities. The findings indicate that student models can achieve high
performance with a relatively small number of training instances, and
demonstrate strong zero-shot cross-lingual abilities. Finally, we publish the
best-performing news topic classifier, enabling multilingual classification
with the top-level categories of the IPTC Media Topic schema.Summary
AI-Generated Summary