LLM Учитель-Студент Фреймворк для Классификации Текста Без Ручной Аннотированной Данных: Кейс-стади в Классификации Тем Новостей IPTC.

Аннотация

С увеличивающимся числом новостных материалов, доступных онлайн, их классификация по темам, независимо от языка написания, становится важной для улучшения доступа читателей к актуальному контенту. Для решения этой задачи мы предлагаем учебно-студенческую структуру на основе крупных языковых моделей (LLM) для разработки мультиязычных моделей классификации новостей разумного размера без необходимости ручной аннотации данных. В рамках этой структуры используется модель Generative Pretrained Transformer (GPT) в качестве учебной модели для создания обучающего набора данных по темам СМИ IPTC Media Topic путем автоматической аннотации новостных статей на словенском, хорватском, греческом и каталонском языках. Учебная модель показывает высокую производительность на всех четырех языках при нулевой настройке. Ее согласованность с человеческими аннотаторами сравнима с согласованностью между самими аннотаторами. Для преодоления вычислительных ограничений, связанных с необходимостью обработки миллионов текстов ежедневно, небольшие модели-студенты, похожие на BERT, донастраиваются на аннотированном GPT наборе данных. Эти модели-студенты достигают высокой производительности, сравнимой с учебной моделью. Кроме того, мы исследуем влияние размера обучающих данных на производительность моделей-студентов и изучаем их монолингвальные, мультиязычные и нулевые кросс-языковые возможности. Полученные результаты показывают, что модели-студенты могут достигать высокой производительности с относительно небольшим количеством обучающих примеров и демонстрируют сильные нулевые кросс-языковые способности. Наконец, мы публикуем лучший классификатор тем новостей, обеспечивая мультиязычную классификацию с верхнеуровневыми категориями схемы тем СМИ IPTC Media Topic.

English

With the ever-increasing number of news stories available online, classifying them by topic, regardless of the language they are written in, has become crucial for enhancing readers' access to relevant content. To address this challenge, we propose a teacher-student framework based on large language models (LLMs) for developing multilingual news classification models of reasonable size with no need for manual data annotation. The framework employs a Generative Pretrained Transformer (GPT) model as the teacher model to develop an IPTC Media Topic training dataset through automatic annotation of news articles in Slovenian, Croatian, Greek, and Catalan. The teacher model exhibits a high zero-shot performance on all four languages. Its agreement with human annotators is comparable to that between the human annotators themselves. To mitigate the computational limitations associated with the requirement of processing millions of texts daily, smaller BERT-like student models are fine-tuned on the GPT-annotated dataset. These student models achieve high performance comparable to the teacher model. Furthermore, we explore the impact of the training data size on the performance of the student models and investigate their monolingual, multilingual and zero-shot cross-lingual capabilities. The findings indicate that student models can achieve high performance with a relatively small number of training instances, and demonstrate strong zero-shot cross-lingual abilities. Finally, we publish the best-performing news topic classifier, enabling multilingual classification with the top-level categories of the IPTC Media Topic schema.

LLM Учитель-Студент Фреймворк для Классификации Текста Без Ручной Аннотированной Данных: Кейс-стади в Классификации Тем Новостей IPTC.

LLM Teacher-Student Framework for Text Classification With No Manually Annotated Data: A Case Study in IPTC News Topic Classification

Аннотация

Support