Cadre Enseignant-Étudiant LLM pour la Classification de Texte Sans Données Annotées Manuellement : Une Étude de Cas dans la Classification des Sujets d'Actualités IPTC
LLM Teacher-Student Framework for Text Classification With No Manually Annotated Data: A Case Study in IPTC News Topic Classification
November 29, 2024
Auteurs: Taja Kuzman, Nikola Ljubešić
cs.AI
Résumé
Avec le nombre croissant d'articles d'actualité disponibles en ligne, les classer par sujet, quelle que soit la langue dans laquelle ils sont rédigés, est devenu crucial pour améliorer l'accès des lecteurs aux contenus pertinents. Pour relever ce défi, nous proposons un cadre enseignant-élève basé sur de grands modèles de langage (LLM) pour développer des modèles de classification d'actualités multilingues de taille raisonnable sans nécessité d'annotation manuelle des données. Le cadre utilise un modèle de type Generative Pretrained Transformer (GPT) en tant que modèle enseignant pour élaborer un ensemble de données d'entraînement IPTC Media Topic grâce à l'annotation automatique d'articles d'actualité en slovène, croate, grec et catalan. Le modèle enseignant présente de hautes performances en zéro-shot dans les quatre langues. Son accord avec les annotateurs humains est comparable à celui entre les annotateurs humains eux-mêmes. Pour pallier les limitations computationnelles liées au traitement de millions de textes quotidiennement, des modèles étudiants plus petits de type BERT sont affinés sur l'ensemble de données annoté par GPT. Ces modèles étudiants atteignent des performances élevées comparables à celles du modèle enseignant. De plus, nous explorons l'impact de la taille des données d'entraînement sur les performances des modèles étudiants et examinons leurs capacités monolingues, multilingues et zéro-shot cross-lingues. Les résultats indiquent que les modèles étudiants peuvent atteindre des performances élevées avec un nombre relativement faible d'instances d'entraînement, et démontrent de solides capacités zéro-shot cross-lingues. Enfin, nous publions le classificateur de sujets d'actualité le plus performant, permettant une classification multilingue avec les catégories de haut niveau du schéma IPTC Media Topic.
English
With the ever-increasing number of news stories available online, classifying
them by topic, regardless of the language they are written in, has become
crucial for enhancing readers' access to relevant content. To address this
challenge, we propose a teacher-student framework based on large language
models (LLMs) for developing multilingual news classification models of
reasonable size with no need for manual data annotation. The framework employs
a Generative Pretrained Transformer (GPT) model as the teacher model to develop
an IPTC Media Topic training dataset through automatic annotation of news
articles in Slovenian, Croatian, Greek, and Catalan. The teacher model exhibits
a high zero-shot performance on all four languages. Its agreement with human
annotators is comparable to that between the human annotators themselves. To
mitigate the computational limitations associated with the requirement of
processing millions of texts daily, smaller BERT-like student models are
fine-tuned on the GPT-annotated dataset. These student models achieve high
performance comparable to the teacher model. Furthermore, we explore the impact
of the training data size on the performance of the student models and
investigate their monolingual, multilingual and zero-shot cross-lingual
capabilities. The findings indicate that student models can achieve high
performance with a relatively small number of training instances, and
demonstrate strong zero-shot cross-lingual abilities. Finally, we publish the
best-performing news topic classifier, enabling multilingual classification
with the top-level categories of the IPTC Media Topic schema.Summary
AI-Generated Summary