LLM-Lehrer-Schüler-Rahmenwerk für Textklassifizierung ohne manuell annotierte Daten: Eine Fallstudie zur Klassifizierung von IPTC-Nachrichtenthemen

papers.abstract

Mit der stetig wachsenden Anzahl von Online-Nachrichten ist die Klassifizierung nach Themen, unabhängig von der Sprache, in der sie verfasst sind, entscheidend, um den Zugang der Leser zu relevanten Inhalten zu verbessern. Um dieser Herausforderung zu begegnen, schlagen wir ein Lehrer-Schüler-Framework auf Basis großer Sprachmodelle (LLMs) vor, um mehrsprachige Nachrichtenklassifikationsmodelle von angemessener Größe ohne manuelle Datenannotation zu entwickeln. Das Framework nutzt ein Generatives Vortrainiertes Transformer (GVT) Modell als Lehrermodell, um einen IPTC Media Topic Trainingsdatensatz durch automatische Annotation von Nachrichtenartikeln in Slowenisch, Kroatisch, Griechisch und Katalanisch zu erstellen. Das Lehrermodell zeigt eine hohe Zero-Shot-Performance in allen vier Sprachen. Seine Übereinstimmung mit menschlichen Annotatoren ist vergleichbar mit der zwischen den menschlichen Annotatoren selbst. Um die Rechenbeschränkungen im Zusammenhang mit der Verarbeitung von Millionen von Texten täglich zu mildern, werden kleinere BERT-ähnliche Schülermodelle auf dem GVT-annotierten Datensatz feinabgestimmt. Diese Schülermodelle erreichen eine hohe Leistung, vergleichbar mit dem Lehrermodell. Darüber hinaus untersuchen wir die Auswirkungen der Größe der Trainingsdaten auf die Leistung der Schülermodelle und untersuchen deren monolinguale, mehrsprachige und Zero-Shot-Querlingualfähigkeiten. Die Ergebnisse zeigen, dass Schülermodelle mit einer relativ geringen Anzahl von Trainingsinstanzen eine hohe Leistung erzielen können und starke Zero-Shot-Querlingualfähigkeiten aufweisen. Schließlich veröffentlichen wir den leistungsstärksten Nachrichtenthemenklassifikator, der eine mehrsprachige Klassifizierung mit den obersten Kategorien des IPTC Media Topic-Schemas ermöglicht.

English

With the ever-increasing number of news stories available online, classifying them by topic, regardless of the language they are written in, has become crucial for enhancing readers' access to relevant content. To address this challenge, we propose a teacher-student framework based on large language models (LLMs) for developing multilingual news classification models of reasonable size with no need for manual data annotation. The framework employs a Generative Pretrained Transformer (GPT) model as the teacher model to develop an IPTC Media Topic training dataset through automatic annotation of news articles in Slovenian, Croatian, Greek, and Catalan. The teacher model exhibits a high zero-shot performance on all four languages. Its agreement with human annotators is comparable to that between the human annotators themselves. To mitigate the computational limitations associated with the requirement of processing millions of texts daily, smaller BERT-like student models are fine-tuned on the GPT-annotated dataset. These student models achieve high performance comparable to the teacher model. Furthermore, we explore the impact of the training data size on the performance of the student models and investigate their monolingual, multilingual and zero-shot cross-lingual capabilities. The findings indicate that student models can achieve high performance with a relatively small number of training instances, and demonstrate strong zero-shot cross-lingual abilities. Finally, we publish the best-performing news topic classifier, enabling multilingual classification with the top-level categories of the IPTC Media Topic schema.

LLM-Lehrer-Schüler-Rahmenwerk für Textklassifizierung ohne manuell annotierte Daten: Eine Fallstudie zur Klassifizierung von IPTC-Nachrichtenthemen

LLM Teacher-Student Framework for Text Classification With No Manually Annotated Data: A Case Study in IPTC News Topic Classification

papers.abstract

Support