LLM Docent-Leerling Raamwerk voor Tekstclassificatie Zonder Handmatig Geannoteerde Gegevens: Een Casestudie in IPTC Nieuwsonderwerpen Classificatie
LLM Teacher-Student Framework for Text Classification With No Manually Annotated Data: A Case Study in IPTC News Topic Classification
November 29, 2024
Auteurs: Taja Kuzman, Nikola Ljubešić
cs.AI
Samenvatting
Met het steeds groeiende aantal nieuwsverhalen dat online beschikbaar is, is het classificeren ervan op onderwerp, ongeacht de taal waarin ze zijn geschreven, cruciaal geworden voor het verbeteren van de toegang van lezers tot relevante inhoud. Om deze uitdaging aan te gaan, stellen we een leerling-leraar kader voor op basis van grote taalmodellen (LLM's) voor het ontwikkelen van meertalige nieuwsclassificatiemodellen van redelijke omvang zonder de noodzaak van handmatige gegevensannotatie. Het kader maakt gebruik van een Generatief Voortraind Transformer (GVT) model als het leermodel om een IPTC Media Topic-trainingsdataset te ontwikkelen door automatische annotatie van nieuwsartikelen in het Sloveens, Kroatisch, Grieks en Catalaans. Het leermodel vertoont een hoge zero-shot prestatie in alle vier talen. De overeenstemming ervan met menselijke annotatoren is vergelijkbaar met die tussen de menselijke annotatoren zelf. Om de computationele beperkingen te verminderen die gepaard gaan met de vereiste verwerking van miljoenen teksten per dag, worden kleinere BERT-achtige leerlingmodellen fijnafgestemd op de GVT-geannoteerde dataset. Deze leerlingmodellen behalen een hoge prestatie die vergelijkbaar is met het leermodel. Verder onderzoeken we de impact van de trainingsdatasetgrootte op de prestatie van de leerlingmodellen en onderzoeken we hun eentalige, meertalige en zero-shot cross-linguale mogelijkheden. De bevindingen geven aan dat leerlingmodellen een hoge prestatie kunnen behalen met een relatief klein aantal trainingsvoorbeelden en sterke zero-shot cross-linguale mogelijkheden demonstreren. Tot slot publiceren we de best presterende nieuwsclassificeerder, waardoor meertalige classificatie mogelijk is met de topniveaucategorieën van het IPTC Media Topic-schema.
English
With the ever-increasing number of news stories available online, classifying
them by topic, regardless of the language they are written in, has become
crucial for enhancing readers' access to relevant content. To address this
challenge, we propose a teacher-student framework based on large language
models (LLMs) for developing multilingual news classification models of
reasonable size with no need for manual data annotation. The framework employs
a Generative Pretrained Transformer (GPT) model as the teacher model to develop
an IPTC Media Topic training dataset through automatic annotation of news
articles in Slovenian, Croatian, Greek, and Catalan. The teacher model exhibits
a high zero-shot performance on all four languages. Its agreement with human
annotators is comparable to that between the human annotators themselves. To
mitigate the computational limitations associated with the requirement of
processing millions of texts daily, smaller BERT-like student models are
fine-tuned on the GPT-annotated dataset. These student models achieve high
performance comparable to the teacher model. Furthermore, we explore the impact
of the training data size on the performance of the student models and
investigate their monolingual, multilingual and zero-shot cross-lingual
capabilities. The findings indicate that student models can achieve high
performance with a relatively small number of training instances, and
demonstrate strong zero-shot cross-lingual abilities. Finally, we publish the
best-performing news topic classifier, enabling multilingual classification
with the top-level categories of the IPTC Media Topic schema.