Cadre Enseignant-Étudiant LLM pour la Classification de Texte Sans Données Annotées Manuellement : Une Étude de Cas dans la Classification des Sujets d'Actualités IPTC

papers.abstract

Avec le nombre croissant d'articles d'actualité disponibles en ligne, les classer par sujet, quelle que soit la langue dans laquelle ils sont rédigés, est devenu crucial pour améliorer l'accès des lecteurs aux contenus pertinents. Pour relever ce défi, nous proposons un cadre enseignant-élève basé sur de grands modèles de langage (LLM) pour développer des modèles de classification d'actualités multilingues de taille raisonnable sans nécessité d'annotation manuelle des données. Le cadre utilise un modèle de type Generative Pretrained Transformer (GPT) en tant que modèle enseignant pour élaborer un ensemble de données d'entraînement IPTC Media Topic grâce à l'annotation automatique d'articles d'actualité en slovène, croate, grec et catalan. Le modèle enseignant présente de hautes performances en zéro-shot dans les quatre langues. Son accord avec les annotateurs humains est comparable à celui entre les annotateurs humains eux-mêmes. Pour pallier les limitations computationnelles liées au traitement de millions de textes quotidiennement, des modèles étudiants plus petits de type BERT sont affinés sur l'ensemble de données annoté par GPT. Ces modèles étudiants atteignent des performances élevées comparables à celles du modèle enseignant. De plus, nous explorons l'impact de la taille des données d'entraînement sur les performances des modèles étudiants et examinons leurs capacités monolingues, multilingues et zéro-shot cross-lingues. Les résultats indiquent que les modèles étudiants peuvent atteindre des performances élevées avec un nombre relativement faible d'instances d'entraînement, et démontrent de solides capacités zéro-shot cross-lingues. Enfin, nous publions le classificateur de sujets d'actualité le plus performant, permettant une classification multilingue avec les catégories de haut niveau du schéma IPTC Media Topic.

English

With the ever-increasing number of news stories available online, classifying them by topic, regardless of the language they are written in, has become crucial for enhancing readers' access to relevant content. To address this challenge, we propose a teacher-student framework based on large language models (LLMs) for developing multilingual news classification models of reasonable size with no need for manual data annotation. The framework employs a Generative Pretrained Transformer (GPT) model as the teacher model to develop an IPTC Media Topic training dataset through automatic annotation of news articles in Slovenian, Croatian, Greek, and Catalan. The teacher model exhibits a high zero-shot performance on all four languages. Its agreement with human annotators is comparable to that between the human annotators themselves. To mitigate the computational limitations associated with the requirement of processing millions of texts daily, smaller BERT-like student models are fine-tuned on the GPT-annotated dataset. These student models achieve high performance comparable to the teacher model. Furthermore, we explore the impact of the training data size on the performance of the student models and investigate their monolingual, multilingual and zero-shot cross-lingual capabilities. The findings indicate that student models can achieve high performance with a relatively small number of training instances, and demonstrate strong zero-shot cross-lingual abilities. Finally, we publish the best-performing news topic classifier, enabling multilingual classification with the top-level categories of the IPTC Media Topic schema.

Cadre Enseignant-Étudiant LLM pour la Classification de Texte Sans Données Annotées Manuellement : Une Étude de Cas dans la Classification des Sujets d'Actualités IPTC

LLM Teacher-Student Framework for Text Classification With No Manually Annotated Data: A Case Study in IPTC News Topic Classification

papers.abstract

Support